PythonUsing Scrapy来爬网网页和Javascrip见面

2024-06-26 11:14:28 发布

您现在位置:Python中文网/ 问答频道 /正文

我正试图通过使用Scrapy在下面的链接下抓取页面。 http://nc.mofcom.gov.cn/channel/qytc2017/list.shtml?p_index=210000 当我想爬下一页时, 在中华人民共和国商务部.cn/频道/qytc217/list.shtml?p_index=210000&page=2 我发现到下一页的href是用Javascript编写的。 首先,我试着用下面的代码找到所有可能的。在

    def parse_item(self, response):
    for pageNum in range(1, 10):
        new_url = response.url + "&page=%d" % pageNum
        yield Request(new_url, callback=self.parse_detailpage)

因为只有子页面,不会有例外;但是,我发现 中华人民共和国商务部.cn/频道/qytc217/list.shtml?p_index=210000&page=7和中华人民共和国商务部.cn/频道/qytc217/list.shtml?p_index=210000&page=6共享相同内容。确实如此,我还注意到有些页面有超过10个子页面,我无法继续爬网。谁能给我一些建议吗?我没有10个声誉,我可以提供1个以上的链接和图片,我真的很抱歉。我真的很感激如果有人可以帮助。在


Tags: selfurlnewindexparse链接responsepage
1条回答
网友
1楼 · 发布于 2024-06-26 11:14:28

您可以使用Splash来使用JavaScript呈现页面。Splash通过scrapy-splash与Scrapy无缝集成。在

另一种方法是解析包含分页信息的脚本。脚本包含存在的页数:

var v_PageCount = 6;

您可以使用scray提取脚本内容,然后使用例如js2xml库来提取这个页面计数号。在

相关问题 更多 >