如何抓取一个网站，有分页使用Scrapy？

2条回答

网友

1楼 · 编辑于 2024-10-01 09:33:10

你可以选择两种方式！首先，您可以捕获http请求包以获取JSON或XML源地址，而不是对它们进行爬网直接。第二，可能是您应该将spider与crawling javascript函数一起使用，例如pyspiderprojecthttps://github.com/binux/pyspider

网友

2楼 · 编辑于 2024-10-01 09:33:10

你需要做的是：

1）打开Firefox

2）运行FireBug控制台

3）转到搜索结果页面

4）由于结果是动态变化的，不会转到另一个页面，因此Javascript代码正在为下一个页面结果调用另一个URL（API）

5）有关此url，请参阅Firebug控制台

6）需要设置scray来调用Javascript函数调用的同一个URL。它很可能返回JSON或XML格式的结果数组，这在Python中很容易操作

7）很可能会有一个“pageNo”变量。所以，迭代页码并获取结果！在

编程相关推荐

bash杀戮屏幕但java进程未结束
java Spring批处理回滚项
java Android材质设计工具栏未在活动\u main中正确显示。xml
java“%sR”中的R在字符串中做什么。格式（）
java UCanaAccess异常“不支持的更新版本：5”
通过https连接到专用ip时出现java“不存在主题替代名称”错误
java有人能解释一下这种移位/长时间修补输出吗？
java识别从forloop创建的数组中的对象
JavaPostXML文件
为什么逗号（，）不会导致编译错误？

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何抓取一个网站，有分页使用Scrapy？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >