垃圾简单规则不遵循链接

2024-05-18 15:19:33 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个非常简单的ScrapyCrawlSpider,我给了它一个简单的规则“craw/Follow any link that contains'/search/listings'”。但是蜘蛛没有爬行/跟踪这些链接?在

我已经确认起始url包含许多带有href'/search/listings'的链接,因此这些链接都在那里。在

知道出什么问题了吗?在

class MySpider(CrawlSpider):

    name = "MySpider"
    allowed_domains = ["mywebsite.com"]
    start_urls = ["http://www.mywebsite.com/results"]
    rules = [Rule(LinkExtractor(allow=['/search/listings(.*)']), callback="parse2")]

    def parse2(self, response):

        # This function is never called
        log.start("log.txt")
        log.msg("Page crawled: " + response.url)

起始url“http://www.mywebsite.com/results”包含我希望规则应用到的以下链接:

^{pr2}$

Tags: comloghttpurlsearch链接规则response

热门问题