如果我在这个网站上不需要帮助的话,我是一个新手!在
在
以下是我目前为止所写的:
https://github.com/killersoda288/help/blob/master/Shortlist.py
在
我一直有一些问题,我甚至不知道如何开始谷歌搜索,希望任何帮助或建议!在
在
最严重的问题是,有些信息似乎不是随意获取的。我运行了几次代码,不同的属性将显示为0星级或0房间,这真的让我困惑。在
在
另一个不太严重的问题是效率。完成一页大约需要1分钟。我没有什么可比的,但如果可能的话,我想让它更有效率!问题是,我不知道该怎么做。在
在
再次感谢您的阅读!如有任何建议,将不胜感激:)
让我总结一下你们的问题:
无法提取房间号或星级。在
你需要查看更多的项目,以找到更常见的模式来提取它们。我浏览了一下这个页面,发现
.ui_bubble_rating
很可能是提取星级的,.room-info
可能对房间号码有帮助。你可以随意验证这些。(我希望我是对的:P)你需要迭代每个项目的详细网址,所以需要很长的时间,也就是说如果一个页面包含20个项目,scraper需要发送20+1(此页面为1)请求,如何优化这一点?在
因为房间号只在详细页面中找到,所以scraper应该迭代每个项目。您可以通过多线程加载这些详细信息页。
Scrapy
可以很好地完成这个任务。相关问题 更多 >
编程相关推荐