我有如下sgml文件:
<DOC>
<DATE> September 10 2017 02:45 </DATE>
<HL> 経済は落ち込んでいます </HL>
<TEXT>
<p>
それはその国にとって良い時期ではありません。
<p>
コミュニティは彼を愛している
</TEXT>
</DOC>
我想删除html标签,并保持信息在新的一行,因为是。我想用python来做
我试过一些代码,但不起作用
import re
import os
import sys
data_dir = sys.argv [1]
def cleanhtml(data_dir):
cleanr = re.compile('<.*?>')
cleantext = re.sub(cleanr, '', data_dir)
return cleantext
代码运行时没有错误或输出
不要用regex解析XML/HTML,它永远不会在所有情况下都正常工作。改用html解析器,例如
BeautifulSoup
:印刷品:
相关问题 更多 >
编程相关推荐