ElementTree使用AND和“parent”搜索节点（XPATH）的更好方法

<?xml version="1.0" encoding="ISO-8859-1"?> <PARAMETERS version="1.6.2" xsi:noNamespaceSchemaLocation="http://open-ms.sourceforge.net/schemas/Param_1_6_2.xsd" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"> <NODE name="vertices" description=""> <NODE name="23" description=""> <ITEM name="recycle_output" value="false" type="string" description="" required="false" advanced="false" /> <ITEM name="toppas_type" value="tool" type="string" description="" required="false" advanced="false" /> <ITEM name="tool_name" value="FileConverter" type="string" description="" required="false" advanced="false" /> <ITEM name="tool_type" value="" type="string" description="" required="false" advanced="false" /> <ITEM name="x_pos" value="-620" type="double" description="" required="false" advanced="false" /> <ITEM name="y_pos" value="-1380" type="double" description="" required="false" advanced="false" /> </NODE> <NODE name="24" description=""> <ITEM name="recycle_output" value="false" type="string" description="" required="false" advanced="false" /> <ITEM name="toppas_type" value="output file list" type="string" description="" required="false" advanced="false" /> <ITEM name="x_pos" value="-440" type="double" description="" required="false" advanced="false" /> <ITEM name="y_pos" value="-1480" type="double" description="" required="false" advanced="false" /> <ITEM name="output_folder_name" value="" type="string" description="" required="false" advanced="false" /> </NODE> <NODE name="33" description=""> <ITEM name="recycle_output" value="false" type="string" description="" required="false" advanced="false" /> <ITEM name="toppas_type" value="merger" type="string" description="" required="false" advanced="false" /> <ITEM name="x_pos" value="-620" type="double" description="" required="false" advanced="false" /> <ITEM name="y_pos" value="-1540" type="double" description="" required="false" advanced="false" /> <ITEM name="round_based" value="false" type="string" description="" required="false" advanced="false" /> </NODE>  </NODE> </PARAMETERS>

from lxml import etree root = etree.DTD("/Users/mikes/Documents/Eclipseworkspace/Bioproximity/Assay-Workflows-Mikes/protein_lfq/protein_lfq-1.1.2.toppas") Traceback (most recent call last): File "<stdin>", line 1, in <module> File "src/lxml/dtd.pxi", line 294, in lxml.etree.DTD.__init__ (src/lxml/lxml.etree.c:187024) lxml.etree.DTDParseError: Content error in the external subset, line 2, column 1

1条回答

网友

1楼 · 发布于 2024-10-02 12:34:09

也许根本不需要嵌套循环，一个XPath表达式就足够了。我不确定您希望最终的结果是什么，但下面是一个lxml的示例：

>>> import lxml.etree
>>> s = '''<NODE name="vertices" description="">
...
...     <NODE name="23" description="">
...       <ITEM name="recycle_output" value="false" type="string" description="" required="false" advanced="false" />
...       <ITEM name="toppas_type" value="tool" type="string" description="" required="false" advanced="false" />
...       <ITEM name="tool_name" value="FileConverter" type="string" description="" required="false" advanced="false" />
...       <ITEM name="tool_type" value="" type="string" description="" required="false" advanced="false" />
...       <ITEM name="x_pos" value="-620" type="double" description="" required="false" advanced="false" />
...       <ITEM name="y_pos" value="-1380" type="double" description="" required="false" advanced="false" />
...     </NODE>
...
...     <NODE name="24" description="">
...       <ITEM name="recycle_output" value="false" type="string" description="" required="false" advanced="false" />
...       <ITEM name="toppas_type" value="output file list" type="string" description="" required="false" advanced="false" />
...       <ITEM name="x_pos" value="-440" type="double" description="" required="false" advanced="false" />
...       <ITEM name="y_pos" value="-1480" type="double" description="" required="false" advanced="false" />
...       <ITEM name="output_folder_name" value="" type="string" description="" required="false" advanced="false" />
...     </NODE>
...
...     <NODE name="33" description="">
...       <ITEM name="recycle_output" value="false" type="string" description="" required="false" advanced="false" />
...       <ITEM name="toppas_type" value="merger" type="string" description="" required="false" advanced="false" />
...       <ITEM name="x_pos" value="-620" type="double" description="" required="false" advanced="false" />
...       <ITEM name="y_pos" value="-1540" type="double" description="" required="false" advanced="false" />
...       <ITEM name="round_based" value="false" type="string" description="" required="false" advanced="false" />
...     </NODE>
... <! (snip) >
... </NODE>'''
>>> root = lxml.etree.fromstring(s)
>>> root.xpath('/NODE[@name="vertices"]/NODE/ITEM[@name = "toppas_type" and @value = "output file list"]')
[<Element ITEM at 0x102b5f788>]

如果您确实需要父元素的名称，可以使用..移动到父节点：

^{pr2}$

从文件解析XML文档

如果要从文件解析XML文档，函数etree.DTD是一个错误的选择。DTD不是XML文档。以下是如何使用lxml完成此操作：

>>> import lxml.etree
>>> root = lxml.etree.parse("example.xml")
>>> root
<lxml.etree._ElementTree object at 0x106593b00>

第二次更新

如果最外层的元素是PARAMETERS，则需要如下搜索：

>>> root.xpath('/PARAMETERS/NODE[@name="vertices"]/NODE/ITEM[@name = "toppas_type" and @value = "output file list"]')
[<Element ITEM at 0x106593e18>]

相关问题更多 >

编程相关推荐

热门问题

热门文章