我试着用普通的蜘蛛屑我想通过访问sitemap.txt
来简化流程,但这也没用!在
我写了一个简单的例子(以帮助我理解算法)来遵循我的站点上指定的站点地图:https://legion-216909.appspot.com/sitemap.txt
它的意思是导航站点地图上指定的url,将它们打印到屏幕上,并将结果输出到links.txt
文件中。代码:
import scrapy
from scrapy.spiders import SitemapSpider
class MySpider(SitemapSpider):
name = "spyder_PAGE"
sitemap_urls = ['https://legion-216909.appspot.com/sitemap.txt']
def parse(self, response):
print(response.url)
return response.url
我以Scrapy crawl spyder_PAGE > links.txt
的身份运行上述spider,但返回了一个空文本文件。我看了好几次那些难看的文件,但有些东西不见了。我哪里出错了?在
SitemapSpider
需要XML站点地图格式,导致爬行器退出并出现以下错误:[scrapy.spiders.sitemap] WARNING: Ignoring invalid sitemap: <200 https://legion-216909.appspot.com/sitemap.txt>
由于您的
sitemap.txt
文件只是一个简单的列表或url,因此使用string方法拆分它们会更容易。在例如:
您只需使用以下命令重写来自
SitemapSpider
的_parse_sitemap(self, response)
:相关问题 更多 >
编程相关推荐