如何在python中使用wget下载网页(mhtml格式)

2024-06-25 23:04:56 发布

您现在位置:Python中文网/ 问答频道 /正文

我们如何使用python语言的wget保存包含内容的网页,以便离线查看?目前我正在使用以下代码:

import wget

driver.webdriver.Chrome()
driver.get("http://www.yahoo.com")
wget.download("http://www.yahoo.com", C:\\Users\\karanjuneja\\Downloads\\kj\\yahoo.mhtml")

这是工作和存储的mhtml版本的网页在文件夹中,但当你打开文件,你将只找到写的代码,而不是网页如何显示在网上。有什么建议吗? 谢谢 卡兰


Tags: 代码importcom语言http网页内容www
1条回答
网友
1楼 · 发布于 2024-06-25 23:04:56

此代码将帮助您创建一个站点的脱机副本,即使不访问internet也可以获取和查看。在

wget  mirror  convert-links  adjust-extension  page-requisites 
 no-parent http://example.org

镜像-使下载(除其他外)具有递归性。在

转换链接-将所有链接(也可以转换成CSS样式表)转换为相对链接,这样就适合离线查看。在

调整扩展名–根据文件名的内容类型向文件名(html或css)添加适当的扩展名。在

页面需求-下载诸如CSS样式表和图片之类的东西,以便正确地离线显示页面。在

no parent–递归时不要上升到父目录。它有助于将下载限制在站点的一部分。在

感谢Guy Rutenberg在他的论坛中提供的代码,这对我也有帮助。在

相关问题 更多 >