我使用scrapy1.1.0和python3.5从网站上获取数据。 以下代码正在工作。。。在
class ImdbSpider(scrapy.Spider):
name = "imdbFav"
allowed_domains = ["http://www.imdb.com"]
start_urls = [
"http://www.imdb.com/title/tt0203166/"
]
recommendRegex = re.compile(r'\/title\/([A-Za-z0-9]*)')
def parse(self, response):
for recommend in response.xpath('//div[@class="rec_page"]/div[@class="rec_item"]/a/@href').extract():
mo = self.recommendRegex.search(recommend)
recommendId = mo.group(1)
link = "http://www.imdb.com/title/" + recommendId
print(link)
yield scrapy.Request(link, callback=self.parse, dont_filter=True)
enter code here
但是。。。我不知道为什么在dont_filter=False时没有调用请求回调。 文件上说:
This is used when you want to perform an identical request multiple times, to ignore the duplicates filter. Use it with care, or you will get into crawling loops.
但我没有要求相同的网址。这是怎么回事?在
谢谢朋友们!在
这是常见的朋友问题:
就你而言,这是关于电影的:
当你在寻找建议的时候,肯定会在电影中重复几次。最好的方法是将电影数据保存到数据库中,并根据其id给出建议
相关问题 更多 >
编程相关推荐