如何使用Python根据条件查找和删除XML文件中的元素（带有命名空间）

<?xml version='1.0' encoding='UTF-8'?> <PcGts xmlns="http://schema.primaresearch.org/PAGE/gts/pagecontent/2013-07-15" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://schema.primaresearch.org/PAGE/gts/pagecontent/2013-07-15 http://schema.primaresearch.org/PAGE/gts/pagecontent/2013-07-15/pagecontent.xsd"> <Page imageFilename="1.png"> <TextRegion custom="a"> <TextLine custom="readingOrder {index:0;}" id="Ar0010001l1"> <TextEquiv> <Unicode> abc </Unicode> </TextEquiv> </TextLine> <TextLine custom="readingOrder {index:1;}" id="Ad0010100l2"> <TextEquiv> <Unicode /> </TextEquiv> </TextRegion> </Page> </PcGts>

2条回答

网友

1楼 · 编辑于 2024-10-01 07:24:34

首先，您的xml缺少<TextLine custom="readingOrder {index:1;}" id="Ad0010100l2">的结束标记，但是如果您将其插入适当的位置，那么以下内容应该可以帮助您：

my_xml = """[your xml above, corrected]"""
data = ET.XML(my_xml.encode('ascii'))
for target in data.xpath("//*[local-name() = 'Unicode'][not(text())]"):
    target.getparent().remove(target)     

print(etree.tostring(data,  xml_declaration=True))

输出：

    <?xml version=\'1.0\' encoding=\'ASCII\'?>\n
<PcGts
    xmlns="http://schema.primaresearch.org/PAGE/gts/pagecontent/2013-07-15"
    xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://schema.primaresearch.org/PAGE/gts/pagecontent/2013-07-15 http://schema.primaresearch.org/PAGE/gts/pagecontent/2013-07-15/pagecontent.xsd">
    <Page imageFilename="1.png">
        <TextRegion custom="a">
            <TextLine custom="readingOrder {index:0;}" id="Ar0010001l1">
                <TextEquiv>
                    <Unicode> abc </Unicode>
                </TextEquiv>
            </TextLine>
            <TextLine custom="readingOrder {index:1;}" id="Ad0010100l2">
                <TextEquiv/>
            </TextLine>
        </TextRegion>
    </Page>
</PcGts>

网友

2楼 · 编辑于 2024-10-01 07:24:34

我终于找到了解决问题的办法。你知道吗

import lxml.etree as ET
my_xml = """...xml content..."""
data = ET.XML(my_xml.encode('UTF-8'))

#this loop remove "<Unicode />" tags.
for target in data.xpath("//*[local-name() = 'Unicode'][not(text())]"):
    target.getparent().remove(target)  

#and this loop remove nodes without children like "<TextEquiv><Unicode /></TextEquiv>" 
#(after the removing of "<Unicode />")
for el in data.iter():
    if len(list(el.iterchildren())) or ''.join([_.strip() for _ in el.itertext()]):
        pass
    else:
        parent = el.getparent()
        if parent is not None:
            parent.remove(el)
#and this loop remove nodes without children again, but now - it's "<TextLine>" tag
for el in data.iter():
    if len(list(el.iterchildren())) or ''.join([_.strip() for _ in el.itertext()]):
        pass
    else:
        parent = el.getparent()
        if parent is not None:
            parent.remove(el)

print(ET.tostring(data,  xml_declaration=True))

这个想法来自Remove xml nodes without child nodes using python

相关问题更多 >

编程相关推荐

热门问题

热门文章