网站(vinted.fr)在我尝试连接scrapy时隐藏数据

2024-09-26 18:11:53 发布

您现在位置:Python中文网/ 问答频道 /正文

所以,我已经按照评论中的要求总结了我的问题(对不起,我也开始使用stackoverflow)

这就是我的问题。如果你浏览this link to vinted.fr,你会看到很多公告。但如果您使用scrapy浏览此网站,例如使用以下命令:

scrapy shell https://www.vinted.fr/vetements?search_text=
view(response)

你不会看到广播

我认为这是由于用户代理造成的,所以我在我的settings.py中设置了以下代码:

USER_AGENT = 'Mozilla/5.0 (X11; Linux x86_64) '

但它什么也没做。你有什么解决办法吗?或者任何有助于阅读的文档


Tags: tohttps命令网站www评论linkfr
2条回答

实际上,公告是HTML格式的,很容易抓取

"entity":{"id":478712497,"title":"Sac à bandoulière Guess ","brand_id":20,"size_id":null,"status_id":2,"disposal_conditions":4,"user_id":26467312,"owner_id":null,"country_id":16,"catalog_id":158,"color1_id":1,"color2_id":12,"package_size_id":1,"is_hidden":0,"is_reserved":0,"reserved_for_user_id":null,"is_visible":1,"is_unisex":0,"is_closed":0,"is_admin_alerted":false,"active_bid_count":0,"favourite_count":1,"view_...

您可以使用regex查找每个产品json,然后提取所需内容

您可以查看项目Vinted-data。我正在使用它从Vinted.fr中提取数据

Scrapy并不总是好的解决方案,你必须用regex或其他方法弄脏你的手

相关问题 更多 >

    热门问题