Python：为什么在scrapy crawlespider中没有打印或做任何事情？

2024-09-29 08:15:06 发布

您现在位置：Python中文网/ 问答频道 /正文

576

网友

男 | 程序猿一只，喜欢编程写python代码。

我是新来的，不能让它做任何事。最后，我想通过以下内部链接从网站上刮下所有的html评论。你知道吗

目前，我只是尝试刮内部链接，并将它们添加到一个列表中。你知道吗

import scrapy
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor

    class comment_spider(CrawlSpider):
        name = 'test'
        allowed_domains = ['https://www.andnowuknow.com/']
        start_urls = ["https://www.andnowuknow.com/"]

        rules = (Rule(LinkExtractor(), callback='parse_start_url', follow=True),)

        def parse_start_url(self, response):
            return self.parse_item(response)

        def parse_item(self, response):
            urls = []
            for link in LinkExtractor(allow=(),).extract_links(response):
                urls.append(link)
                print(urls)

我只是想让它在这一点上打印一些东西，到目前为止我试过的都不管用。你知道吗

它以退出代码0结束，但不会打印，所以我无法判断发生了什么。你知道吗

我错过了什么？你知道吗

Tags： from https import self parse 链接 response www

1条回答

网友

1楼 · 发布于 2024-09-29 08:15:06

当然你的消息日志应该给我们一些提示，但是我看到你的allowed_domains有一个URL而不是一个域。您应该这样设置：

allowed_domains = ["andnowuknow.com"]

(See it in the official documentation)

希望有帮助。你知道吗

Python：为什么在scrapy crawlespider中没有打印或做任何事情？

相关问题更多 >

编程相关推荐

热门问题

热门文章

Python：为什么在scrapy crawlespider中没有打印或做任何事情？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >