获取整个站点python - 问答 - Python中文网

获取整个站点python

2024-09-30 04:34:17 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

获取简单的网页非常容易。正如我从python's manumal中看到的

import urllib2
response = urllib2.urlopen('http://python.org/')
html = response.read()

但如何获取所有站点？有人能给我密码吗？你知道吗

Tags： org import http 网页密码 read 站点 response

2条回答

网友

1楼 · 编辑于 2024-09-30 04:34:17

使用BeautifulSoup解析站点，并对每个链接重复此过程，除非它将您带到域之外。你知道吗

非常简单，但是如果您尝试同时获取动态内容（没有指向该内容的链接），它会变得很复杂。你知道吗

网友

2楼 · 编辑于 2024-09-30 04:34:17

你可以使用

粘糊糊的
美丽之声http://www.crummy.com/software/BeautifulSoup/
机械化http://wwwsearch.sourceforge.net/mechanize/

您可以提取网页上的链接，并跟踪您是否访问过该网页，以及该url是否属于同一网站，然后获取它们。你知道吗

您需要记住为该页编制索引所需的嵌套级别。否则，您要检索的页面将呈指数级增长

相关问题更多 >

编程相关推荐

热门问题

热门文章