如何使用urlib下载整个网站？

wget \ --recursive \--no-clobber \ --page-requisites \ --html-extension \ --convert-links \ --restrict-file-names=windows \ --domains website.org \ --no-parent \ www.website.org/tutorials/html/

3条回答

网友

1楼 · 编辑于 2024-09-30 20:19:37

如果不使用urlencode方法，那么可以使用urllib2，它允许您设置头和UA。或者可以使用支持更多API的请求。See documentation here
若要使用urllib下载整个网站，网站必须启用目录列表，而大多数网站所有者都不允许通过在.htaccess中设置目录列表。

网友

2楼 · 编辑于 2024-09-30 20:19:37

自从用户（在另一个问题中被问到但被删除是因为。。原因..）指出了使用BeautifulSoup作为替代方法的参考，下面是一个工作示例，用于检索所有<a href="something.html">something</a>链接并将其保存在本地：

import urllib2
from BeautifulSoup import BeautifulSoup, SoupStrainer
from os.path import basename

def store_links(page):
    with open(basename(page), 'wb') as fh:
        site = urllib.urlopen(page)
        site_data = site.read()

        fh.write(site_data)

        for link in BeautifulSoup(site_data, parseOnlyThese=SoupStrainer('a')):
            if link.has_attr('href'):
                store_links(link['href'])

store_links('http://www.nytimes.com')

注意：目前还没有在锁定的机器上进行测试，因此可能会出现语法错误，但想法是一样的：

创建一个递归函数，该函数在找到链接时将调用自身
给递归函数一个起点，让它发疯

网友

3楼 · 编辑于 2024-09-30 20:19:37

如果你想下载一个完整的带有urllib的网站，你必须解析每个页面，找到所有链接并下载它们。这是可行的，但要做到正确却很难。

如果您想要纯python解决方案，我建议您查看scrapy，或者从脚本中调用wget。

相关问题更多 >

编程相关推荐

热门问题

热门文章