获取整个站点python

2024-09-30 04:34:17 发布

您现在位置:Python中文网/ 问答频道 /正文

获取简单的网页非常容易。 正如我从python's manumal中看到的

import urllib2
response = urllib2.urlopen('http://python.org/')
html = response.read()

但如何获取所有站点? 有人能给我密码吗?你知道吗


Tags: orgimporthttp网页密码read站点response
2条回答

使用BeautifulSoup解析站点,并对每个链接重复此过程,除非它将您带到域之外。你知道吗

非常简单,但是如果您尝试同时获取动态内容(没有指向该内容的链接),它会变得很复杂。你知道吗

你可以使用

您可以提取网页上的链接,并跟踪您是否访问过该网页,以及该url是否属于同一网站,然后获取它们。你知道吗

您需要记住为该页编制索引所需的嵌套级别。否则,您要检索的页面将呈指数级增长

相关问题 更多 >

    热门问题