擅长:python、mysql、java
<p>你可以使用</p>
<ul>
<li>粘糊糊的</li>
<li>美丽之声<a href="http://www.crummy.com/software/BeautifulSoup/" rel="nofollow">http://www.crummy.com/software/BeautifulSoup/</a></li>
<li>机械化<a href="http://wwwsearch.sourceforge.net/mechanize/" rel="nofollow">http://wwwsearch.sourceforge.net/mechanize/</a></li>
</ul>
<p>您可以提取网页上的链接,并跟踪您是否访问过该网页,以及该url是否属于同一网站,然后获取它们。你知道吗</p>
<p>您需要记住为该页编制索引所需的嵌套级别。否则,您要检索的页面将呈指数级增长</p>