我是新来的,不能让它做任何事。最后,我想通过以下内部链接从网站上刮下所有的html评论。你知道吗
目前,我只是尝试刮内部链接,并将它们添加到一个列表中。你知道吗
import scrapy
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor
class comment_spider(CrawlSpider):
name = 'test'
allowed_domains = ['https://www.andnowuknow.com/']
start_urls = ["https://www.andnowuknow.com/"]
rules = (Rule(LinkExtractor(), callback='parse_start_url', follow=True),)
def parse_start_url(self, response):
return self.parse_item(response)
def parse_item(self, response):
urls = []
for link in LinkExtractor(allow=(),).extract_links(response):
urls.append(link)
print(urls)
我只是想让它在这一点上打印一些东西,到目前为止我试过的都不管用。你知道吗
它以退出代码0结束,但不会打印,所以我无法判断发生了什么。你知道吗
我错过了什么?你知道吗
当然你的消息日志应该给我们一些提示,但是我看到你的
allowed_domains
有一个URL而不是一个域。您应该这样设置:(See it in the official documentation)
希望有帮助。你知道吗
相关问题 更多 >
编程相关推荐