Python字符串pars

网友

1楼 · 编辑于 2024-07-04 15:44:35

像这样？在

import re
def getPacketContent ( code, packetName ):
    match = re.search( '<' + packetName + '>(.*?)<' + packetName + '>', code )
    return match.group( 1 ) if match else ''

# usage
code = "<PACKET><HEAD><ID><ID><SEQ><SEQ><FILENAME><FILENAME><HEAD><DATA><DATA><PACKET>"
print( getPacketContent( code, 'HEAD' ) )
print( getPacketContent( code, 'SEQ' ) )

网友

2楼 · 编辑于 2024-07-04 15:44:35

正如mjv所指出的，如果您只使用XML，那么发明一种类似XML的格式就毫无意义了。在

但是：如果要使用XML作为数据包格式，则必须真正使用XML。您应该使用XML库来创建您的包，而不仅仅是解析它们。否则，当您的某个字段值第一次包含XML标记字符时，您将陷入困境。在

当然，您可以编写自己的代码来进行必要的转义、过滤非法字符、保证格式良好等等。对于这样简单的格式，这可能就是您需要做的全部。但是，沿着这条路走下去是一种学习XML的方法，您可能不想学习这些东西。在

如果使用XML库创建数据包是个问题，那么最好定义一个自定义格式（我定义一个与XML完全不同的格式，以防止人们产生想法），并使用pyparsing为其构建一个解析器。在

网友

3楼 · 编辑于 2024-07-04 15:44:35

如果数据包格式有效地使用了XML格式的语法（例如，如果“结束标记”实际上包含斜杠），则可以使用xml.etree.ElementTree。
这个库是Python标准库的一部分，从Py2.5开始。我发现处理这种数据非常方便。它提供了许多读取和修改这种树结构的方法。由于XML语言的通用性和ElementTree库中内置的XML意识，包语法可以很容易地演化，例如支持重复元素、元素属性。在

示例：

>>> import xml.etree.ElementTree
>>> myPacket = '<PACKET><HEAD><ID>123</ID><SEQ>1</SEQ><FILENAME>Test99.txt</FILE
NAME></HEAD><DATA>spam and cheese</DATA></PACKET>'
>>> xt = xml.etree.ElementTree.fromstring(myPacket)
>>> wrk_ele = xt.find('HEAD/FILENAME')
>>> wrk_ele.text
'Test99.txt'
>>>

相关问题更多 >

编程相关推荐

热门问题

热门文章