我对网络抓取有点陌生,我的问题可能有点傻。我想从租赁网站上获取信息。我想每天刮取将近2000页来获取信息。但我不想重击他们的网站。我只需要一个特定的标签里面的信息,这是一个表。有没有办法只请求页面的那一部分而不是获取整个页面
我肯定会在脚本中添加延迟和睡眠,但减小文件大小也会有所帮助。 实现这一点将把请求的文件大小从大约300kB减少到11kB
网站网址:https://asunnot.oikotie.fi/vuokrattavat-asunnot
网页示例:https://asunnot.oikotie.fi/vuokrattavat-asunnot/imatra/15733776
必需的标记:<div class="listing-details-container">...</div>
感谢您提前回复:)
我认为每天2000英镑并不高——这取决于你什么时候做。如果您在每个请求之间放置10秒的等待时间,则不应使其过载,但需要6小时。 当网站应该比较安静的时候,晚上做可能会更好。 如果你不等待2000年,网站所有者可能会不高兴
相关问题 更多 >
编程相关推荐