如何在python中用scrapy乱写文件托管网站?

2024-09-28 20:48:07 发布

您现在位置:Python中文网/ 问答频道 /正文

有谁能帮我弄清楚如何乱写文件托管网站filefactory.com?我不想下载所有的文件托管,但只是索引所有可用的文件与废料。在

我已经阅读了关于蜘蛛类的教程和文件。如果我只把网站主页作为起始网址,我就不会乱画整个网站,因为潦草的内容依赖于链接,但是起始页面似乎没有指向任何文件页面。这就是我正在考虑的问题,任何帮助都将不胜感激!在


Tags: 文件com内容网站链接教程主页页面
1条回答
网友
1楼 · 发布于 2024-09-28 20:48:07

我有两条建议。第一种方法是确保正确使用Scrapy,第二种方法是收集更多url样本的最佳方法。在

首先:

确保使用CrawlSpider对网站进行爬网。这是大多数人使用的,当他们想获取一个爬网页面上的所有链接,并把它们变成新的请求Scrapy来爬网。有关爬网蜘蛛的详细信息,请参见http://doc.scrapy.org/en/latest/topics/spiders.html。在

如果你建立正确的爬行蜘蛛,它应该能够找到,然后爬行,每一页的大部分链接。在

然而,如果包含下载链接的页面本身并不是由scray遇到的页面链接的,那么Scrapy就无法知道它们。在

解决这个问题的一个方法是在网站上使用多个入口点,在你知道的Scrapy很难找到的地方。您可以通过在start_urls变量中放置多个初始URL来完成此操作。在

其次

既然这很可能已经是你在做的了,下面是我的下一点建议。 如果您进入Google,并键入site:www.filefactory.com,您将看到指向Google索引的每个页面的链接www.filefactory.com。请确保还选中site:filefactory.com,因为存在一些规范化问题。现在,当我这样做的时候,我发现有大约60万页的索引。你应该做的是爬网谷歌,收集所有这些索引网址,并存储在一个数据库。然后,使用所有这些在FileFactory.com网站网站。在

如果你有会员资格Filefactory.com网站,您也可以编写scrapy来提交表单或登录。这样做可能会让您进一步访问。在

相关问题 更多 >