垃圾简单规则不遵循链接

2024-05-18 15:19:33 发布

您现在位置：Python中文网/ 问答频道 /正文

860

网友

男 | 程序猿一只，喜欢编程写python代码。

我有一个非常简单的ScrapyCrawlSpider，我给了它一个简单的规则“craw/Follow any link that contains'/search/listings'”。但是蜘蛛没有爬行/跟踪这些链接？在

我已经确认起始url包含许多带有href'/search/listings'的链接，因此这些链接都在那里。在

知道出什么问题了吗？在

class MySpider(CrawlSpider):

    name = "MySpider"
    allowed_domains = ["mywebsite.com"]
    start_urls = ["http://www.mywebsite.com/results"]
    rules = [Rule(LinkExtractor(allow=['/search/listings(.*)']), callback="parse2")]

    def parse2(self, response):

        # This function is never called
        log.start("log.txt")
        log.msg("Page crawled: " + response.url)

起始url“http://www.mywebsite.com/results”包含我希望规则应用到的以下链接：

^{pr2}$

Tags： com log http url search 链接规则 response

0条回答

目前没有回答

垃圾简单规则不遵循链接

相关问题更多 >

编程相关推荐

热门问题

热门文章

垃圾简单规则不遵循链接

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >