<p>对于此html代码:</p>
<pre><code><ul><li>Include these codes as defined in http://unitsofmeasure.org
<table><tr><td><b>Code</b>
</td><td><b>Display</b></td></tr>
<tr><td>min</td><td>Minute</td><td></td></tr>
<tr><td>h</td><td>Hour</td><td></td></tr><tr>
<td>d</td><td>Day</td><td></td></tr>
</table></li></ul>
</code></pre>
<p>我只想要<code><li></code>部分的信息,我是说<code>"Include these codes as defined in http://unitsofmeasure.org"</code>。但是因为<code></li></code>在表之后结束,<code>BS4</code>也捕获表中的信息。这是我的密码:</p>
<pre><code>definition = [li.get_text() for li in ul.findAll("li")]
</code></pre>
<p>这是输出:</p>
<pre><code>[u'Include these codes as defined in http://unitsofmeasure.orgCodeDisplayminMinutehHourdDaywkWeekmoMonthaYear']
</code></pre>
<p>如何编辑代码以不捕获表中的信息?你知道吗</p>
<p>可以使用<a href="https://www.crummy.com/software/BeautifulSoup/bs4/doc/#extract" rel="nofollow">extract()</a>删除表。你知道吗</p>
<pre><code>definition = [li.find('table').extract().get_text() for li in ul.findAll("li")]
</code></pre>