我想从BeautifulSoup中得到正确分隔的文本,必要时将标记转换为空白。问题是换行被折叠,而像<br/>
这样的标记没有呈现为空白。在
<div class="companyInfo">
<p class="identInfo">
<acronym title="Standard Industrial Code">
SIC
</acronym>
:
<a href="/?SIC=3674">
3674
</a>
- SEMICONDUCTORS & RELATED DEVICES
<br />
State location: CA
</p>
</div>
如果我运行BeautifulSoup(sampleHTML).text,我会得到以下结果:
^{pr2}$我想要一些正确处理空白的东西,比如:
u'SIC : 3674 - SEMICONDUCTORS & RELATED DEVICES State location: CA'
有什么建议吗?谢谢!在
最后我使用content方法从各个节点获取我想要的信息。结果证明这比使用text方法更好,因为它消除了对一些文本解析的需要。在
所以,总之,使用内容法或者按照Jouni留下的链接来检查答案。在
您还可以使用getText()函数。getText()有一个可选的分隔符参数。在
strip()用于删除任何前导空格和尾随空格。在
相关问题 更多 >
编程相关推荐