在Python中解析自定义XML标记而不解析HTML

2条回答

网友

1楼 · 编辑于 2024-09-27 23:15:26

您应该能够通过内置的minidomxml解析器来实现这一点。在

from xml.dom import minidom

xmldoc = minidom.parse("document.xml")
rootNode = xmldoc.firstChild
firstNode = rootNode.childNodes[0]

在您的示例中，firstNode的结果是：

^{pr2}$

注意minidom（可能还有您可能使用的任何其他xml解析库）在默认情况下无法识别HTML。这是设计的，因为XML文档没有预定义的标记。在

然后，可以使用一系列if或try语句来确定在提取数据时是否已到达HTML格式的节点：

for i in range (0, len(rootNode))
    rowNode = rootNode.childNodes[i]
    if "<p>" in rowNode:
         #this is an html-formatted node: extract the value and continue

网友

2楼 · 编辑于 2024-09-27 23:15:26

我不认为有一种简单的方法可以修改XML解析器的行为来忽略一些预定义的标记。一种更简单的方法是让解析器正常地解析XML，然后可以为此创建一个返回元素未解析内容的函数，例如：

import xml.etree.ElementTree as ET

def getUnparsedContent(element):
    return ''.join(ET.tostring(e) for e in element)

xmlstring = """<myTag1 myAttrib="value">
  <myTag2>
    <p>My what a lovely day.</p>
  </myTag2>
</myTag1>"""

root = ET.fromstring(xmlstring)
print(getUnparsedContent(root[0]))

输出：

^{pr2}$

相关问题更多 >

编程相关推荐

热门问题

热门文章

在Python中解析自定义XML标记而不解析HTML

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >