2024-10-01 09:33:10 发布
网友
我试图抓取一个有分页的网站。如果我单击页面底部的“下一步”按钮,将生成新项目。我的垃圾程序无法获取动态数据。有没有办法可以把这些数据取出来?在
“下一步”按钮的HTML如下所示
<div id="morePaginationID"> <a href="javascript:void(0);" onclick="lazyPagingNew('db')"></a>
我的蜘蛛
你可以选择两种方式!首先,您可以捕获http请求包以获取JSON或XML源地址,而不是对它们进行爬网直接。第二,可能是您应该将spider与crawling javascript函数一起使用,例如pyspiderprojecthttps://github.com/binux/pyspider
你需要做的是:
1)打开Firefox
2)运行FireBug控制台
3)转到搜索结果页面
4)由于结果是动态变化的,不会转到另一个页面,因此Javascript代码正在为下一个页面结果调用另一个URL(API)
5)有关此url,请参阅Firebug控制台
6)需要设置scray来调用Javascript函数调用的同一个URL。它很可能返回JSON或XML格式的结果数组,这在Python中很容易操作
7)很可能会有一个“pageNo”变量。所以,迭代页码并获取结果!在
你可以选择两种方式!首先,您可以捕获http请求包以获取JSON或XML源地址,而不是对它们进行爬网直接。第二,可能是您应该将spider与crawling javascript函数一起使用,例如pyspiderprojecthttps://github.com/binux/pyspider
你需要做的是:
1)打开Firefox
2)运行FireBug控制台
3)转到搜索结果页面
4)由于结果是动态变化的,不会转到另一个页面,因此Javascript代码正在为下一个页面结果调用另一个URL(API)
5)有关此url,请参阅Firebug控制台
6)需要设置scray来调用Javascript函数调用的同一个URL。它很可能返回JSON或XML格式的结果数组,这在Python中很容易操作
7)很可能会有一个“pageNo”变量。所以,迭代页码并获取结果!在
相关问题 更多 >
编程相关推荐