使用BeautifulSoup获取di的分隔内容

2024-10-04 11:22:58 发布

您现在位置:Python中文网/ 问答频道 /正文

我想从BeautifulSoup中得到正确分隔的文本,必要时将标记转换为空白。问题是换行被折叠,而像<br/>这样的标记没有呈现为空白。在

<div class="companyInfo">
    <p class="identInfo">
        <acronym title="Standard Industrial Code">
            SIC
        </acronym>
        :
        <a href="/?SIC=3674">
            3674
        </a>
        - SEMICONDUCTORS &amp; RELATED DEVICES
        <br />
        State location: CA
    </p>
</div>

如果我运行BeautifulSoup(sampleHTML).text,我会得到以下结果:

^{pr2}$

我想要一些正确处理空白的东西,比如:

u'SIC : 3674 - SEMICONDUCTORS &amp; RELATED DEVICES State location: CA'

有什么建议吗?谢谢!在


Tags: 标记brdivlocation空白classcaamp
2条回答

最后我使用content方法从各个节点获取我想要的信息。结果证明这比使用text方法更好,因为它消除了对一些文本解析的需要。在

所以,总之,使用内容法或者按照Jouni留下的链接来检查答案。在

您还可以使用getText()函数。getText()有一个可选的分隔符参数。在

BeautifulSoup(sampleHTML).getText(' ').strip()

strip()用于删除任何前导空格和尾随空格。在

相关问题 更多 >