尝试下载html页面来创建一个非常简单的网站

2024-05-19 05:20:44 发布

您现在位置:Python中文网/ 问答频道 /正文

我对在python上使用html页面还不熟悉。 我正试图从我的电脑上离线运行BBC网站,我为此编写了一个python代码。 我已经做了一些函数,通过浏览主页上的链接(使用regex)下载网站上的所有html页面。 我有一个本地目录上的所有链接,但它们都称为sub0,sub1,sub2。 如何编辑主页,使其将所有链接指向我的目录中的html页面而不是联机页面? 同样,这些页面并不是以其原始名称调用的- 所以用本地目录替换域是行不通的。 我需要一种方法,通过在主页上的所有链接,并改变他们的整个路径。你知道吗


Tags: 函数代码目录网站链接html主页页面
1条回答
网友
1楼 · 发布于 2024-05-19 05:20:44

我认为最好的方法是创建某种映射文件。该文件将映射BBC站点上的原始URL=>;计算机上文件的路径。当你从主页抓取链接的时候,你可以很容易的生成这个文件。然后,当您想脱机爬网此站点时,只需遍历此文档并访问本地文件路径。或者,您可以在原始主页上爬行,搜索映射文件中的链接,找出它们指向的文件。你知道吗

这种方法有一些明显的缺点,最明显的是更改下载页面的目录结构/文件名会破坏爬网。。。你知道吗

相关问题 更多 >

    热门问题