擅长:python、mysql、java
<p>屏幕抓取包括许多正则表达式来获得所需的精确数据。你还想知道你想分析什么样的数据以及你想如何存储它。在</p>
<p>要获得页面,您需要使用urllib(或urllib2)和正则表达式(re)之类的库,或者使用一个好的脚本is beautifulsoup来完成您的脏工作(<a href="http://www.crummy.com/software/BeautifulSoup/" rel="nofollow noreferrer">http://www.crummy.com/software/BeautifulSoup/</a>)</p>
<p>如果你想建立一个纯粹的机器人来做搜索引擎所做的事情,你还必须建立一个足够聪明的机器人来知道你不会一直ping同一个域(导致DOS攻击)。在</p>