在Python中用Selenium加载无限页时逐块转储数据

2024-10-16 17:18:08 发布

您现在位置:Python中文网/ 问答频道 /正文

我已经成功地编写了一段Python/Selenium代码,它可以连续加载无限滚动的页面。完整代码位于http://pastebin.com/MaRkAWcg。它将无限滚动页面的整个原始html作为一个大文件加载,然后用另一段代码对其进行解析。显然,如果滚动页面很大(通常是),在加载和打印时会出现内存和CPU问题。你知道吗

那么,有没有人知道有什么方法可以逐渐加载滚动页面的html,同时将其附加到一个文件中,同时从内存中转储已经附加的数据?你知道吗


Tags: 文件数据方法内存代码comhttphtml