使用python scrapy刮取下一页的注释

2024-09-24 02:17:02 发布

您现在位置：Python中文网/ 问答频道 /正文

1877

网友

男 | 程序猿一只，喜欢编程写python代码。

我正在使用python scrapy来获取用户评论，这些评论可能有多个页面，我需要单击“查看更多”以查看更多评论

这是指向我要爬网的页面的链接： https://en.drivy.com/car-rental/berlin/dacia-dokker-218119

我注意到如果评论超过10条，我需要点击“查看更多”链接以获得后续评论。我还注意到“查看更多”URL链接是https://en.drivy.com/cars/218119/reviews？page=2&；rel=下一个

但是，如果我使用scrapy访问https://en.drivy.com/cars/218119/reviews？page=2&；rel=next，该网站将我重定向回https://en.drivy.com/car-rental/berlin/dacia-dokker-218119，我无法获得接下来的十条评论。（我想知道网站是否使用cookie或会话ID，并将我的scrapy标识为新访问）

我知道我可以使用python selenium打开网页并单击“查看更多”以获得评论，但是，selenium非常慢，我希望我可以使用scrapy来代替

有人能帮我吗？或者至少给我一个前进的方向？提前谢谢

Tags： https com 链接评论页面 car cars en

1条回答

网友

1楼 · 发布于 2024-09-24 02:17:02

您应该设置"Accept: */*;q=0.5, text/javascript, application/javascript, application/ecmascript, application/x-ecmascript"头。您将捕获包含注释文本的JS对象

yield Request("https://en.drivy.com/cars/218119/reviews?page=2&rel=next", parse = ..., ..., headers={'Accept': "*/*;q=0.5, text/javascript, application/javascript, application/ecmascript, application/x-ecmascript"})

使用python scrapy刮取下一页的注释

相关问题更多 >

编程相关推荐

热门问题

热门文章

使用python scrapy刮取下一页的注释

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >