从请求u得到错误的值

2024-06-28 10:17:11 发布

您现在位置:Python中文网/ 问答频道 /正文

我试图从This.中提取标题,但得到的标题不同,这不是响应url的标题。 我在试这个-

class ElementSpider(scrapy.Spider):
    name = 'qwerty4'
    allowed_domains = ["burbank.com.au"]
    start_urls = ["https://www.burbank.com.au/victoria/home-details/alphington-153-179727", "https://www.burbank.com.au/victoria/home-details/sandringham-151-171569", "https://www.burbank.com.au/victoria/home-details/sandringham-151-181680", "https://www.burbank.com.au/victoria/home-details/bellfield-184-171585", "https://www.burbank.com.au/victoria/home-details/carlton-178-172662", "https://www.burbank.com.au/victoria/home-details/carlton-178-178079" ]

    def parse(self, response):
        title = response.xpath('//div[@class="col-md-4 col-xs-12 col-sm-12"]/div[@class="housename"]/span/text()').extract()[0]
        print response.url
        print title

有些请求得到了错误的数据。输出是- enter image description here

请建议如何解决这个问题。在


Tags: httpscomurl标题homeresponsewwwcol
2条回答

好像是网站存储了viewstate。在

要解决这个问题,您要么需要通过设置CONCURRENT_REQUESTS = 1来消除scrapy的并发性。在

否则,您需要进一步研究viewstate是如何生成的,它可能是IP绑定的,这意味着您需要一些代理来解决这个问题。在

他们不想他们的网站被刮,所以增加了一个技术,使刮板混淆。在

在设置.py更改一些字段。在

CONCURRENT_REQUESTS = 1
DOWNLOAD_DELAY = 2

相关问题 更多 >