如何在带有文本站点地图的站点上使用Scrapy sitemap spider？

import scrapy from scrapy.spiders import SitemapSpider class MySpider(SitemapSpider): name = "spyder_PAGE" sitemap_urls = ['https://legion-216909.appspot.com/sitemap.txt'] def parse(self, response): print(response.url) return response.url

2条回答

网友

1楼 · 编辑于 2024-06-26 13:35:56

SitemapSpider需要XML站点地图格式，导致爬行器退出并出现以下错误：

[scrapy.spiders.sitemap] WARNING: Ignoring invalid sitemap: <200 https://legion-216909.appspot.com/sitemap.txt>

由于您的sitemap.txt文件只是一个简单的列表或url，因此使用string方法拆分它们会更容易。在

例如：

from scrapy import Spider, Request

class MySpider(Spider):
    name = "spyder_PAGE"
    start_urls = ['https://legion-216909.appspot.com/sitemap.txt']

    def parse(self, response):
        links = response.text.split('\n')
        for link in links:
            # yield a request to get this link
            print(link)

# https://legion-216909.appspot.com/index.html
# https://legion-216909.appspot.com/content.htm
# https://legion-216909.appspot.com/Dataset/module_4_literature/Unit_1/.DS_Store

网友

2楼 · 编辑于 2024-06-26 13:35:56

您只需使用以下命令重写来自SitemapSpider的_parse_sitemap(self, response)：

from scrapy import Request
from scrapy.spiders import SitemapSpider

class MySpider(SitemapSpider):
   sitemap_urls = [...]
   sitemap_rules = [...]
   def _parse_sitemap(self, response):
        # yield a request for each url in the txt file that matches your filters
        urls = response.text.splitlines()
        it = self.sitemap_filter(urls)
        for loc in it:
            for r, c in self._cbs:
                if r.search(loc):
                    yield Request(loc, callback=c)
                    break

相关问题更多 >

编程相关推荐

热门问题

热门文章