擅长:python、mysql、java
<p>我将在class=列表的表中获取每个tr。你的搜索范围显然太广了,找不到你想要的信息。因为HTML有一个结构,所以您可以轻松地获得表数据。从长远来看,这比获得所有的href并过滤掉那些你不想退出的href要容易得多。beauthulsoup有大量关于如何做到这一点的文档。<a href="http://www.crummy.com/software/BeautifulSoup/documentation.html" rel="nofollow">http://www.crummy.com/software/BeautifulSoup/documentation.html</a></p>
<p>不精确代码:</p>
<pre><code>for tr in soup.findAll('tr'):
data_list = tr.children()
data_list[0].content # 7
data_list[1].content # New York
data_list[2].content # Region < ignore this
# etc
</code></pre>