如何请求网页的一部分scrapy(python)

2024-06-28 23:40:11 发布

您现在位置:Python中文网/ 问答频道 /正文

我对网络抓取有点陌生,我的问题可能有点傻。我想从租赁网站上获取信息。我想每天刮取将近2000页来获取信息。但我不想重击他们的网站。我只需要一个特定的标签里面的信息,这是一个表。有没有办法只请求页面的那一部分而不是获取整个页面

我肯定会在脚本中添加延迟和睡眠,但减小文件大小也会有所帮助。 实现这一点将把请求的文件大小从大约300kB减少到11kB

网站网址:https://asunnot.oikotie.fi/vuokrattavat-asunnot

网页示例:https://asunnot.oikotie.fi/vuokrattavat-asunnot/imatra/15733776

必需的标记:<div class="listing-details-container">...</div>

感谢您提前回复:)


Tags: https网络div脚本信息网站页面标签
1条回答
网友
1楼 · 发布于 2024-06-28 23:40:11

我认为每天2000英镑并不高——这取决于你什么时候做。如果您在每个请求之间放置10秒的等待时间,则不应使其过载,但需要6小时。 当网站应该比较安静的时候,晚上做可能会更好。 如果你不等待2000年,网站所有者可能会不高兴

相关问题 更多 >