擅长:python、mysql、java
<p>如果您要解析的是HTML,我建议使用诸如<a href="https://pypi.python.org/pypi/beautifulsoup4" rel="noreferrer">Beautiful Soup</a>之类的库。不需要正则表达式。</p>
<p><strong>编辑</strong></p>
<p>使用刚才添加的URL,这是将HTML对象取出的示例代码:</p>
<pre><code>import BeautifulSoup
import re
import urllib
data = urllib.urlopen('http://listadecasamento.fastshop.com.br/ListaCasamento/ListaCasamentoBusca.aspx?Data=2013-06-07').read()
soup = BeautifulSoup.BeautifulSoup(data)
element = soup.find('span', attrs={'class': re.compile(r".*\btxt_resultad_busca_casamento\b.*")})
print element.text
</code></pre>
<p>这将在包含类<code>txt_resultad_busca_casamento</code>的页面上找到HTML <code>span</code>元素,我相信这是您试图提取的数据。在那里,您可以解析<code>.text</code>属性以获得您感兴趣的确切数据。</p>
<p><strong>编辑2</strong></p>
<p>哦,刚刚意识到使用正则表达式。。。貌似美女组的班级搭配并不完美!这一行应该可以工作,至少在站点更改其HTML之前:</p>
<pre><code>element = soup.find('div', attrs={'id': 'ctl00_body_uppBusca'}).find('span')
</code></pre>