<p>美体会帮你做很多重活的。Regex通常是HTML关注的最后手段。最好使用该产品的最新版本,如下面的代码所示。在</p>
<pre><code>HTML = '''\
<value>
<span class="htmllite">EDUCATIONAL RESEARCH</span>
</value>
</span>&nbsp;&nbsp;<span class="label">Volume: </span><span class="data_bold">
<value>29</value>
</span>&nbsp;&nbsp;<span class="label">Issue: </span><span class="data_bold">
<value>2</value>
</span>&nbsp;&nbsp;<span class="label">Pages: </span><span class="data_bold">
<value>26-152</value>
</span>&nbsp;&nbsp;<span class="label">Published: </span><span class="data_bold">
<value>JUN 1987</value>
'''
from bs4 import BeautifulSoup
soup = BeautifulSoup(HTML, "html.parser")
items = soup.findAll('span', attrs = {'class': 'label' })
for item in items:
label = item.contents[0]
sibling = item.find_next_sibling('span')
value = sibling.select('value')[0].text
print (label, value )
</code></pre>
<p>结果:</p>
^{pr2}$
<p>我写这篇文章时不尝试一些失败的可能性,这是远远不够聪明的。您是否使用IDLE之类的工具来建议替代方案并尝试代码片段以查看它们给出的结果?在</p>
<p>注:当你再次回到这个问题上来时,请把HTML和其他文本作为文本(而不是图像文件)发布,这样回答者就可以使用剪切和粘贴了。在</p>