2024-09-30 04:34:17 发布
网友
获取简单的网页非常容易。 正如我从python's manumal中看到的
import urllib2 response = urllib2.urlopen('http://python.org/') html = response.read()
但如何获取所有站点? 有人能给我密码吗?你知道吗
使用BeautifulSoup解析站点,并对每个链接重复此过程,除非它将您带到域之外。你知道吗
非常简单,但是如果您尝试同时获取动态内容(没有指向该内容的链接),它会变得很复杂。你知道吗
你可以使用
您可以提取网页上的链接,并跟踪您是否访问过该网页,以及该url是否属于同一网站,然后获取它们。你知道吗
您需要记住为该页编制索引所需的嵌套级别。否则,您要检索的页面将呈指数级增长
使用BeautifulSoup解析站点,并对每个链接重复此过程,除非它将您带到域之外。你知道吗
非常简单,但是如果您尝试同时获取动态内容(没有指向该内容的链接),它会变得很复杂。你知道吗
你可以使用
您可以提取网页上的链接,并跟踪您是否访问过该网页,以及该url是否属于同一网站,然后获取它们。你知道吗
您需要记住为该页编制索引所需的嵌套级别。否则,您要检索的页面将呈指数级增长
相关问题 更多 >
编程相关推荐