使用python |有限对象进行Web刮取

1条回答

网友

1楼 · 发布于 2024-09-27 21:28:03

以下是我将如何完成此网页清理任务：

当您滚动到底部时，页面中似乎添加了24个新项目。因为当我们按pc过滤时，我看到有3919个结果，所以让我们使用无头浏览器/JavaScript引擎，比如PhantomJS，让它滚动到页面底部，然后等待几秒钟，等待新结果加载，然后重复3919/24次这个过程。要使其正常工作，您需要安装像PhantomJS这样的Web驱动程序

from selenium import webdriver

driver = webdriver.PhantomJS()
driver.get('https://www.komplett.no/search?q=pc')
num_pages = int((3919/24) + 1)
for _ in range(num_pages):
    driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
    time.sleep(3)

html = driver.page_source.encode('utf-8')

完成循环后，可以调用.driver.page_source.encode('utf-8')捕获DOM树上当前加载的html，然后使用该数据处理web的其余部分

顺便说一句，我刚才做了一个电脑抓取项目，here's the link如果你想查看的话

相关问题更多 >

编程相关推荐

热门问题

热门文章

使用python |有限对象进行Web刮取

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >