我正在寻找以下HTML结构:
<p><strong>ID:</strong>547</p>
<p><strong>Class:</strong>foobar</p>
<p><strong>Procedures:</strong>lorem ipsum.</p>
<p>dolor sit amet.</p>
...
<p><strong>Description:</strong>curabitur at orci posuere.</p>
<p>massa nec fringilla.</p>
...
我对使用BeautifulSoup不太有信心,也不太清楚如何处理给定节(id、class、procedures和description)的标识符嵌套在包含该节内容的第一段中这一事实。你知道吗
我正试着按照以下几点去做:
{
'id': 547,
'class': 'foobar',
'procedures': 'lorem ipsum. dolor sit amet.'
'description': 'curabitur at orci posuere. massa nec fringilla.'
}
您可以使用
element.next_sibling
引用来获取<strong>
标记后面的文本。对于没有strong
标记的p
标记,您必须附加到最后处理的键。你知道吗使用
Element.find_all()
方法选择所有<p>
标记,循环并更新字典:演示:
这不会将ID转换为整数;如果您强烈希望转换表示整数的字符串,则可以使用
try: value = int(value)
、except ValueError: pass
组合。你知道吗相关问题 更多 >
编程相关推荐