对于此html代码:
<ul><li>Include these codes as defined in http://unitsofmeasure.org
<table><tr><td><b>Code</b>
</td><td><b>Display</b></td></tr>
<tr><td>min</td><td>Minute</td><td></td></tr>
<tr><td>h</td><td>Hour</td><td></td></tr><tr>
<td>d</td><td>Day</td><td></td></tr>
</table></li></ul>
我只想要<li>
部分的信息,我是说"Include these codes as defined in http://unitsofmeasure.org"
。但是因为</li>
在表之后结束,BS4
也捕获表中的信息。这是我的密码:
definition = [li.get_text() for li in ul.findAll("li")]
这是输出:
[u'Include these codes as defined in http://unitsofmeasure.orgCodeDisplayminMinutehHourdDaywkWeekmoMonthaYear']
如何编辑代码以不捕获表中的信息?你知道吗
尝试使用previousSibling从表标记上移,有关可用方法的详细信息,请参见https://www.crummy.com/software/BeautifulSoup/bs4/doc/#method-names
可以使用extract()删除表。你知道吗
相关问题 更多 >
编程相关推荐