PythonUsing Scrapy来爬网网页和Javascrip见面

2024-06-26 11:14:28 发布

男 | 程序猿一只，喜欢编程写python代码。

我正试图通过使用Scrapy在下面的链接下抓取页面。 http://nc.mofcom.gov.cn/channel/qytc2017/list.shtml?p_index=210000 当我想爬下一页时， 在中华人民共和国商务部.cn/频道/qytc217/list.shtml？p_index=210000&page=2 我发现到下一页的href是用Javascript编写的。首先，我试着用下面的代码找到所有可能的。在

    def parse_item(self, response):
    for pageNum in range(1, 10):
        new_url = response.url + "&page=%d" % pageNum
        yield Request(new_url, callback=self.parse_detailpage)

因为只有子页面，不会有例外；但是，我发现中华人民共和国商务部.cn/频道/qytc217/list.shtml？p_index=210000&page=7和中华人民共和国商务部.cn/频道/qytc217/list.shtml？p_index=210000&page=6共享相同内容。确实如此，我还注意到有些页面有超过10个子页面，我无法继续爬网。谁能给我一些建议吗？我没有10个声誉，我可以提供1个以上的链接和图片，我真的很抱歉。我真的很感激如果有人可以帮助。在

Tags： self url new index parse 链接 response page

1条回答

网友

1楼 · 发布于 2024-06-26 11:14:28

您可以使用Splash来使用JavaScript呈现页面。Splash通过scrapy-splash与Scrapy无缝集成。在

另一种方法是解析包含分页信息的脚本。脚本包含存在的页数：

var v_PageCount = 6;

您可以使用scray提取脚本内容，然后使用例如js2xml库来提取这个页面计数号。在

PythonUsing Scrapy来爬网网页和Javascrip见面

相关问题更多 >

编程相关推荐

热门问题

热门文章

PythonUsing Scrapy来爬网网页和Javascrip见面

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >