我对在python上使用html页面还不熟悉。
我正试图从我的电脑上离线运行BBC网站,我为此编写了一个python代码。
我已经做了一些函数,通过浏览主页上的链接(使用regex)下载网站上的所有html页面。
我有一个本地目录上的所有链接,但它们都称为sub0,sub1,sub2。
如何编辑主页,使其将所有链接指向我的目录中的html页面而不是联机页面?
同样,这些页面并不是以其原始名称调用的-
所以用本地目录替换域是行不通的。
我需要一种方法,通过在主页上的所有链接,并改变他们的整个路径。你知道吗
Tags:
我认为最好的方法是创建某种映射文件。该文件将映射BBC站点上的原始URL=>;计算机上文件的路径。当你从主页抓取链接的时候,你可以很容易的生成这个文件。然后,当您想脱机爬网此站点时,只需遍历此文档并访问本地文件路径。或者,您可以在原始主页上爬行,搜索映射文件中的链接,找出它们指向的文件。你知道吗
这种方法有一些明显的缺点,最明显的是更改下载页面的目录结构/文件名会破坏爬网。。。你知道吗
相关问题 更多 >
编程相关推荐