抓取多个页面与刮痕 - 问答 - Python中文网

抓取多个页面与刮痕

2024-09-28 23:31:31 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

目标

用Scrapy和Python制作一个两级的deepweb爬虫程序。在

问题

该网站是在一个结构，一个网页，大约有10个项目，爬虫是跟踪链接和提取正确的数据。问题是这种结构对于10页是递归的，但是最后几页的链接是更改的，并且被注释定向到home1，而不是home2。对于第2页到第10页，我们希望爬虫程序执行相同的例程，因为爬虫程序所遵循的模式在这些页面上递归重复。在

网站结构

->website.com
-->          /home1
--->               /page/2
-->          /home2/doc/item

我可以使用下一个爬虫从第一级访问数据。在

一级爬虫

^{pr2}$

Tags：数据项目程序网页目标网站链接结构

1条回答

网友

1楼 · 发布于 2024-09-28 23:31:31

我不确定我是否完全理解您的问题，但是如果您试图从第一页抓取多个URL，您可以在start_URL数组中列出它们。这将允许您独立抓取每个页面。在

start_urls = [
    "https://website.com/home1/",
    "https://website.com/home2/",
    "https://website.com/home3/"
]

但是，如果您想爬网home1并跟踪记录URL的顺序，以便可以在以下home2、home3等中对它们进行爬网。您可以创建一个全局列表并将URL保存到列表中。另一个选择是创建一个URL的列表，并使用带有恶心。请求. 在

请澄清，很难理解用例。在

相关问题更多 >

编程相关推荐

热门问题

热门文章