我有一个html文件,在div标记中有许多不同的文本结构。我唯一想做的就是在这些标记中获取文本,但是没有标记、换行符等
例如,这个html div:
<div class="textNahlad">
<i>Informácie pre záujemcu:</i>
<br>
Výberový pohovor je potrebné vopred dojednať telefonicky
<br>
</div>
但也可以是:
^{pr2}$所以结果是:Informácie pre záujemcu: Výberový pohovor je potrebné vopred dojednať telefonicky
我很好奇Python/BS4中是否有一个函数可以只返回文本而不返回标记、换行符和其他混乱的内容。在
find.('div',class_="textNahlad")
不工作
编辑:我试着用.contents和每个内容检查,不管是文本还是标记,如果是tag,则获取文本,但它不能正常工作。在
您可以按如下方式访问
stripped_strings
属性:最后一行显示,虽然输入中的空白(
<br>
)不同,但文本是相同的。在我认为bs4的^{} 方法应该可以正常工作。然后可以使用一些正则表达式来处理结果,以删除任何多余的空白。在
这样做:
相关问题 更多 >
编程相关推荐