擅长:python、mysql、java
<p>我知道的东西不多,所以我用bs4做这个,希望你会发现它有用</p>
<pre><code>from bs4 import BeautifulSoup
import urllib2
def parse_link(url):
soup_link = BeautifulSoup(urllib.urlopen(url).read())
for x in soup_link.find_all('div','col-third'):
for y in x:
try:
if y.name == 'h3' or y.name == 'dl':
print y.get_text()
except:pass
soup = BeautifulSoup(urllib2.urlopen('http://eb5info.com/regional-centers').read())
for x in soup.find_all('li','va va_child'):
parse_link('http://eb5info.com'+x.a.get('href'))
</code></pre>
<p>这将为您提供所有链接,然后您可以调用一个传递url的函数并对其进行解析。
我你会得到文本,我还没有格式好打印,你现在可以做了,我希望你得到概念。我在这里打印信息,你可以保存它,做任何你想做的事。在</p>