我试图从This.中提取标题,但得到的标题不同,这不是响应url的标题。 我在试这个-
class ElementSpider(scrapy.Spider):
name = 'qwerty4'
allowed_domains = ["burbank.com.au"]
start_urls = ["https://www.burbank.com.au/victoria/home-details/alphington-153-179727", "https://www.burbank.com.au/victoria/home-details/sandringham-151-171569", "https://www.burbank.com.au/victoria/home-details/sandringham-151-181680", "https://www.burbank.com.au/victoria/home-details/bellfield-184-171585", "https://www.burbank.com.au/victoria/home-details/carlton-178-172662", "https://www.burbank.com.au/victoria/home-details/carlton-178-178079" ]
def parse(self, response):
title = response.xpath('//div[@class="col-md-4 col-xs-12 col-sm-12"]/div[@class="housename"]/span/text()').extract()[0]
print response.url
print title
请建议如何解决这个问题。在
好像是网站存储了viewstate。在
要解决这个问题,您要么需要通过设置
CONCURRENT_REQUESTS = 1
来消除scrapy的并发性。在否则,您需要进一步研究viewstate是如何生成的,它可能是IP绑定的,这意味着您需要一些代理来解决这个问题。在
他们不想他们的网站被刮,所以增加了一个技术,使刮板混淆。在
在设置.py更改一些字段。在
相关问题 更多 >
编程相关推荐