如何在Python中完成呈现后抓取网页的HTML内容

import urllib from bs4 import BeautifulSoup urlToRead = "http://jokes.cc.com"; handle = urllib.urlopen(urlToRead) htmlGunk = handle.read() soup = BeautifulSoup(htmlGunk, "html.parser") # Find out the exact position of the joke in the page print soup.findAll('a', {'class':'random_link'})[0]

1条回答

网友

1楼 · 发布于 2024-05-19 07:23:23

您需要的数据是由JavaScript在页面加载时动态运行生成的。beauthoulsoup没有JavaScript引擎，所以不管你等待多长时间，链接永远不会改变。有一些Python库可以抓取并理解JavaScript，但最好的办法可能是挖掘并找出网站上JS的实际工作方式。例如，如果他们有一个随机笑话的笑话数据源，那么它可能是Python可以非常容易地解析的JSON格式。这将使您的应用程序比包含完全成熟的脚本引擎更轻量级。在

编程相关推荐

java Android同步不同页面上的按钮
java评测每个类收集的垃圾对象实例数
java（Spring MVC+Hibernate 4+Test 4）自动连线DAO返回NULL
java Android编辑文本和虚拟键盘
java Selenium与BrowserMobProxy
JAVAlang.NoClassDefFoundError:com/sun/jersey/spi/inject/Errors$关闭原因？
java为什么在我成功登录后仍然会出现“不正确的帐户或密码或用户类型”
安卓应用程序在重新启动java时崩溃。网UnknownHostException:无法解析主机
多线程在Java中同步共享静态对象的正确方法是什么？
未调用自定义注释的java类验证（约束类）

相关问题更多 >

编程相关推荐

热门问题

热门文章