使用python编辑.txt文件,然后转换为有效的xml

2024-09-28 22:31:18 发布

您现在位置:Python中文网/ 问答频道 /正文

我有很多文本文件需要转换成.xml,以便能够更有效地工作 (我应该做几个语言模型来分析英语方言)

文件如下:

<I> <IFL-IDN W2C-001 #1:1> <#> <h> <bold> Some Statement that I can edit </bold> <bold> followed by another </bold> </h> 
    <IFL-IDN W2C-001 #2:1> <p> <#> more and more text that is not very relevant . </p></I>

每个文件大约有500个单词,我要做的是识别标记,并关闭未闭合的标记,如<;\gt;>;和句子末尾。在

然后,我想将整个.txt文件转换为有效的xml文件,其中包含每个单词的前后。 我可以用.split()将其分开,但问题是这类标记中有空格。在

我能想到的最好的代码是spilline(),然后对一个句子执行.split(),然后尝试识别

这是它的代码

^{pr2}$

我最初的想法是,如果我能写一些东西来保存一个.txt文件中的一个有效的xml文件,那么将该文件转换为一个.xml文件应该不是一个大问题。 我找不到一个python库可以做到这一点,eltree库可以创建xml,但是我找不到任何东西来标识和转换它。在

提前谢谢你,任何帮助都将不胜感激。在


Tags: 文件代码标记gttxtthatmorexml
1条回答
网友
1楼 · 发布于 2024-09-28 22:31:18

首先,您不必加载文件并拆分行,您可以迭代这些行。xml解析器可以单独应用于每一行。在

Korpus = open("w2c-001.txt")
for line in Korpus:
    ...

如果您想自己解析它,可以使用正则表达式来查找标记

^{pr2}$

XML不是一种文件格式,它是一种语言,只需将纯文本写入.XML文件就可以了。在

相关问题 更多 >