2024-09-27 18:01:17 发布
网友
我正在努力清理这个网站
https://www.neds.com.au/sports/esports
我正在使用scrapy来做这件事,但我所做的任何尝试都只会抓住预加载页面。我只是使用了错误的工具吗
无论您最终使用什么工具,它都必须监视DOM的更改,并且只有在DOM稳定时(内容在任意时间内不再更改)才开始实际的抓取
一个这样的工具是开源浏览器扩展https://github.com/get-set-fetch/extension。它基于CSS选择器进行刮取,并具有“稳定性超时”选项
来自docs:Stability Timeout——当在指定的时间量(毫秒)内没有更多DOM更改时,考虑已加载并准备好刮取的页面。仅适用于html资源。用于绕过预加载程序内容
免责声明:我是扩展的作者
无论您最终使用什么工具,它都必须监视DOM的更改,并且只有在DOM稳定时(内容在任意时间内不再更改)才开始实际的抓取
一个这样的工具是开源浏览器扩展https://github.com/get-set-fetch/extension。它基于CSS选择器进行刮取,并具有“稳定性超时”选项
来自docs:Stability Timeout——当在指定的时间量(毫秒)内没有更多DOM更改时,考虑已加载并准备好刮取的页面。仅适用于html资源。用于绕过预加载程序内容
免责声明:我是扩展的作者
相关问题 更多 >
编程相关推荐