我想从sgmlfi中删除html标记

<DOC> <DATE> September 10 2017 02:45 </DATE> <HL> 経済は落ち込んでいます </HL> <TEXT> <p> それはその国にとって良い時期ではありません。 <p> コミュニティは彼を愛している </TEXT> </DOC>

1条回答

网友

1楼 · 发布于 2024-09-29 21:49:32

不要用regex解析XML/HTML，它永远不会在所有情况下都正常工作。改用html解析器，例如BeautifulSoup：

data = '''<DOC>
    <DATE> September 10 2017 02:45 </DATE>
    <HL> 経済は落ち込んでいます </HL>
    <TEXT>
    <p>
    それはその国にとって良い時期ではありません。
    <p>
    コミュニティは彼を愛している
    </TEXT>
    </DOC>
'''

from bs4 import BeautifulSoup

soup = BeautifulSoup(data, 'html.parser')

print(soup.get_text(strip=True, separator='\n'))

印刷品：

September 10 2017 02:45
経済は落ち込んでいます
それはその国にとって良い時期ではありません。
コミュニティは彼を愛している

相关问题更多 >

编程相关推荐

热门问题

热门文章

我想从sgmlfi中删除html标记

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >