使用python scrapy刮取下一页的注释

2024-09-24 02:17:02 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在使用python scrapy来获取用户评论,这些评论可能有多个页面,我需要单击“查看更多”以查看更多评论

这是指向我要爬网的页面的链接: https://en.drivy.com/car-rental/berlin/dacia-dokker-218119

我注意到如果评论超过10条,我需要点击“查看更多”链接以获得后续评论。 我还注意到“查看更多”URL链接是https://en.drivy.com/cars/218119/reviews?page=2&;rel=下一个

但是,如果我使用scrapy访问https://en.drivy.com/cars/218119/reviews?page=2&;rel=next,该网站将我重定向回https://en.drivy.com/car-rental/berlin/dacia-dokker-218119,我无法获得接下来的十条评论。(我想知道网站是否使用cookie或会话ID,并将我的scrapy标识为新访问)

我知道我可以使用python selenium打开网页并单击“查看更多”以获得评论,但是,selenium非常慢,我希望我可以使用scrapy来代替

有人能帮我吗?或者至少给我一个前进的方向?提前谢谢


Tags: httpscom链接评论页面carcarsen
1条回答
网友
1楼 · 发布于 2024-09-24 02:17:02

您应该设置"Accept: */*;q=0.5, text/javascript, application/javascript, application/ecmascript, application/x-ecmascript"头。您将捕获包含注释文本的JS对象

yield Request("https://en.drivy.com/cars/218119/reviews?page=2&rel=next", parse = ..., ..., headers={'Accept': "*/*;q=0.5, text/javascript, application/javascript, application/ecmascript, application/x-ecmascript"})

相关问题 更多 >