抓取多个页面与刮痕

2024-09-28 23:31:31 发布

您现在位置:Python中文网/ 问答频道 /正文

目标

用Scrapy和Python制作一个两级的deepweb爬虫程序。在

问题

该网站是在一个结构,一个网页,大约有10个项目,爬虫是跟踪链接和提取正确的数据。问题是这种结构对于10页是递归的,但是最后几页的链接是更改的,并且被注释定向到home1,而不是home2。对于第2页到第10页,我们希望爬虫程序执行相同的例程,因为爬虫程序所遵循的模式在这些页面上递归重复。在

网站结构

->website.com
-->          /home1
--->               /page/2
-->          /home2/doc/item

我可以使用下一个爬虫从第一级访问数据。在

一级爬虫

^{pr2}$

Tags: 数据项目程序网页目标网站链接结构
1条回答
网友
1楼 · 发布于 2024-09-28 23:31:31

我不确定我是否完全理解您的问题,但是如果您试图从第一页抓取多个URL,您可以在start_URL数组中列出它们。这将允许您独立抓取每个页面。在

start_urls = [
    "https://website.com/home1/",
    "https://website.com/home2/",
    "https://website.com/home3/"
]

但是,如果您想爬网home1并跟踪记录URL的顺序,以便可以在以下home2、home3等中对它们进行爬网。您可以创建一个全局列表并将URL保存到列表中。另一个选择是创建一个URL的列表,并使用带有恶心。请求. 在

请澄清,很难理解用例。在

相关问题 更多 >