我们如何使用python语言的wget保存包含内容的网页,以便离线查看?目前我正在使用以下代码:
import wget
driver.webdriver.Chrome()
driver.get("http://www.yahoo.com")
wget.download("http://www.yahoo.com", C:\\Users\\karanjuneja\\Downloads\\kj\\yahoo.mhtml")
这是工作和存储的mhtml版本的网页在文件夹中,但当你打开文件,你将只找到写的代码,而不是网页如何显示在网上。有什么建议吗? 谢谢 卡兰
此代码将帮助您创建一个站点的脱机副本,即使不访问internet也可以获取和查看。在
镜像-使下载(除其他外)具有递归性。在
转换链接-将所有链接(也可以转换成CSS样式表)转换为相对链接,这样就适合离线查看。在
调整扩展名–根据文件名的内容类型向文件名(html或css)添加适当的扩展名。在
页面需求-下载诸如CSS样式表和图片之类的东西,以便正确地离线显示页面。在
no parent–递归时不要上升到父目录。它有助于将下载限制在站点的一部分。在
感谢Guy Rutenberg在他的论坛中提供的代码,这对我也有帮助。在
相关问题 更多 >
编程相关推荐