我有很多文本文件需要转换成.xml,以便能够更有效地工作 (我应该做几个语言模型来分析英语方言)
文件如下:
<I> <IFL-IDN W2C-001 #1:1> <#> <h> <bold> Some Statement that I can edit </bold> <bold> followed by another </bold> </h>
<IFL-IDN W2C-001 #2:1> <p> <#> more and more text that is not very relevant . </p></I>
每个文件大约有500个单词,我要做的是识别标记,并关闭未闭合的标记,如<;\gt;>;和句子末尾。在
然后,我想将整个.txt文件转换为有效的xml文件,其中包含每个单词的前后。 我可以用.split()将其分开,但问题是这类标记中有空格。在
我能想到的最好的代码是spilline(),然后对一个句子执行.split(),然后尝试识别
这是它的代码
^{pr2}$我最初的想法是,如果我能写一些东西来保存一个.txt文件中的一个有效的xml文件,那么将该文件转换为一个.xml文件应该不是一个大问题。 我找不到一个python库可以做到这一点,eltree库可以创建xml,但是我找不到任何东西来标识和转换它。在
提前谢谢你,任何帮助都将不胜感激。在
首先,您不必加载文件并拆分行,您可以迭代这些行。xml解析器可以单独应用于每一行。在
如果您想自己解析它,可以使用正则表达式来查找标记
^{pr2}$XML不是一种文件格式,它是一种语言,只需将纯文本写入.XML文件就可以了。在
相关问题 更多 >
编程相关推荐