如何在python中用scrapy乱写文件托管网站？

1条回答

网友

1楼 · 发布于 2024-09-28 20:48:07

我有两条建议。第一种方法是确保正确使用Scrapy，第二种方法是收集更多url样本的最佳方法。在

首先：

确保使用CrawlSpider对网站进行爬网。这是大多数人使用的，当他们想获取一个爬网页面上的所有链接，并把它们变成新的请求Scrapy来爬网。有关爬网蜘蛛的详细信息，请参见http://doc.scrapy.org/en/latest/topics/spiders.html。在

如果你建立正确的爬行蜘蛛，它应该能够找到，然后爬行，每一页的大部分链接。在

然而，如果包含下载链接的页面本身并不是由scray遇到的页面链接的，那么Scrapy就无法知道它们。在

解决这个问题的一个方法是在网站上使用多个入口点，在你知道的Scrapy很难找到的地方。您可以通过在start_urls变量中放置多个初始URL来完成此操作。在

其次

既然这很可能已经是你在做的了，下面是我的下一点建议。如果您进入Google，并键入site:www.filefactory.com，您将看到指向Google索引的每个页面的链接www.filefactory.com。请确保还选中site:filefactory.com，因为存在一些规范化问题。现在，当我这样做的时候，我发现有大约60万页的索引。你应该做的是爬网谷歌，收集所有这些索引网址，并存储在一个数据库。然后，使用所有这些在FileFactory.com网站网站。在

也

如果你有会员资格Filefactory.com网站，您也可以编写scrapy来提交表单或登录。这样做可能会让您进一步访问。在

相关问题更多 >

编程相关推荐

热门问题

热门文章