Tripadvisor的Python web scraper没有获取一些信息

2024-10-01 22:34:48 发布

您现在位置:Python中文网/ 问答频道 /正文

如果我在这个网站上不需要帮助的话,我是一个新手!在

以下是我目前为止所写的:

https://github.com/killersoda288/help/blob/master/Shortlist.py

我一直有一些问题,我甚至不知道如何开始谷歌搜索,希望任何帮助或建议!在

最严重的问题是,有些信息似乎不是随意获取的。我运行了几次代码,不同的属性将显示为0星级或0房间,这真的让我困惑。在

另一个不太严重的问题是效率。完成一页大约需要1分钟。我没有什么可比的,但如果可能的话,我想让它更有效率!问题是,我不知道该怎么做。在

再次感谢您的阅读!如有任何建议,将不胜感激:)


Tags: 代码pyhttpsgithubmastercom信息属性
1条回答
网友
1楼 · 发布于 2024-10-01 22:34:48

让我总结一下你们的问题:

  1. 无法提取房间号或星级。在

    你需要查看更多的项目,以找到更常见的模式来提取它们。我浏览了一下这个页面,发现.ui_bubble_rating很可能是提取星级的,.room-info可能对房间号码有帮助。你可以随意验证这些。(我希望我是对的:P)

  2. 你需要迭代每个项目的详细网址,所以需要很长的时间,也就是说如果一个页面包含20个项目,scraper需要发送20+1(此页面为1)请求,如何优化这一点?在

    因为房间号只在详细页面中找到,所以scraper应该迭代每个项目。您可以通过多线程加载这些详细信息页。Scrapy可以很好地完成这个任务。

相关问题 更多 >

    热门问题