XML解析后的显示问题

2024-09-30 14:23:44 发布

男 | 程序猿一只，喜欢编程写python代码。

我正在解析具有以下结构的XML文档：

<Distlist>
  <DistDoc>
     <Metadata></Metadata>
     <ArchiveDoc>
        <Article>
          <Para>aaaaaa</Para>
          <Para>bbbbbb</Para>
          <Para>cccccc</Para>
        </Article>
     </ArchiveDoc>
  </DistDoc>
</Distlist>

我在每个文件中有5000篇文章，每篇文章的全文分为几段。我使用以下代码提取文章全文（我使用lxml）：

doc = etree.parse(path) #Parse file
root=doc.getroot() #Get the root 

#Store full texts in list
full_texts = []
for child in root:
    full_texts.append("\n\n".join(child[1][0].itertext()))

当我看到输出时，它是这样的：

aaaaaaabbbbbbcccc

而我的预期输出（双线中断）应该是：

aaaaaa

bbbbbb

cccccc

段落之间没有分隔时很难阅读。我做错了什么

Tags： doc article 文章 root full 全文 metadata para

1条回答

网友

1楼 · 发布于 2024-09-30 14:23:44

在article节点上迭代并连接para节点的文本：

for article in root.xpath(".//Article"):
    texts = article.xpath(".//Para/text()")
    print("\n".join(texts))

XML解析后的显示问题

相关问题更多 >

编程相关推荐

热门问题

热门文章

XML解析后的显示问题

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >