如何用Python中的BeautifulSoup提取标签中的文本？

<html> <div id="d1"> Text 1 </div> <div id="d2"> Text 2 <a href="http://my.url/">a url</a> Text 2 continue </div> <div id="d3"> Text 3 </div> </html>

2条回答

网友

1楼 · 编辑于 2024-05-06 20:49:04

只有简单的列表理解才能获得NavigableString对象。

tag = soup.find(id='d2')
s = ''.join(e for e in tag if type(e) is bs4.element.NavigableString)

或者，可以使用decompose方法删除所有子节点，然后使用text获取所有剩余项。

tag = soup.find(id='d2')
for e in tag.find_all() : 
    e.decompose()
s = tag.text

网友

2楼 · 编辑于 2024-05-06 20:49:04

尝试使用.find_all(text=True, recursive=False)：

from bs4 import BeautifulSoup
div_test="""
<html>
    <div id="d1">
        Text 1
    </div>
    <div id="d2">
        Text 2
        <a href="http://my.url/">a url</a>
        Text 2 continue
    </div>
    <div id="d3">
        Text 3
    </div>
</html>
"""
soup = BeautifulSoup(div_test, 'lxml')
s = soup.find(id='d2').find_all(text=True, recursive=False)
print(s)
print([e.strip() for e in s]) #remove space

它将返回一个只有text的list：

[u'\n        Text 2\n        ', u'\n        Text 2 continue\n    ']
[u'Text 2', u'Text 2 continue']

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何用Python中的BeautifulSoup提取标签中的文本？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >