擅长:python、mysql、java
<p>您可以使用lxml</strong>,它比BeautifulSoup快一个数量级。在</p>
<p>下面的代码可以帮助您实现期望的结果。在</p>
<pre><code>from lxml import html
html_string = """
<div class="clear">
<div class="section_content iw_right">
<p>
<span>
</span>
<strong>hello</strong>
<br>
<strong>gen</strong>
</p>
</div>
</div>
<div class="clear">
<p>
<span>
</span>
<strong>hello1</strong>
<br>
<strong>gen1</strong>
</p>
</div>
"""
root = html.fromstring(html_string)
r_xp = [elem.xpath('.//p/strong/text()')[0] for elem in root.xpath('//div[@class="clear"]')]
print(r_xp)
</code></pre>
<p>注意在示例<code>html_string</code>中,类为<code>"section_content iw_right"</code>的div从第二个<code>div</code>中消失。在</p>
<p>上述代码将导致:</p>
^{pr2}$