数据嵌套严重时如何使用python获取信息

name (personA { field1 : data1 field2 : data2 fieldN : dataN subfield() { fieldx1 : datax1 fieldxN : dataxN } } name (personB { field1 : data11 field2 : data12 fieldN : data1N }

import re data = dict() with open('data.txt', 'r') as fin: FLAG, FLAGP, FLAGS = False, False, False for line in fin: if FLAG: if re.search('field1', line): d1 = line.split()[2] data['field1'] = d1 if re.search('fieldN', line): dN = line.split()[2] data['fieldN'] = dN data['fieldxn'] = 'unknown' FLAGP = True if FLAGS: if re.search('fieldxN', line): dsN = line.split()[2] data['fieldxn'] = dsN if re.search('name\ \(', line): pn = line.split()[1] FLAG = True data['name'] = pn if re.search('subfield', line): FLAGS = True if len(data) == 4: if FLAGP: print data FLAGP = False FLAG = False FLAGS = False

1条回答

网友

1楼 · 发布于 2024-09-29 23:32:46

我会采用不同的方法来解析，将子字段（和其他字段）存储在字典中。你知道吗

data = open('data.txt', 'rt').read()

### Given a string containing lines of "fieldX : valueY" 
### return a dictionary of values
def getFields(field_data):
    fields = {}
    if (field_data != None):
        field_lines = field_data.strip().split("\n")
        for pair in field_lines:
            name, value = pair.split(":")
            fields[name.strip()] = value.strip()
    return fields


### Split the data by name
people_data = data.strip().split("name (")[1:]

### Loop though every person record
for person_data in people_data:
    name, person_data = person_data.split(" {", 1)   # split the name and the fields
    # Split out the subfield data, if any
    subfield_data = None
    if (person_data.find("subfield()") > -1):
        field_data, subfield_data = person_data.split("subfield() {", 1)
        subfield_data = subfield_data.split("}")[0]
    # Separate the fields into single lines of pairs
    fields = getFields(field_data)
    # and any subfields
    subfields = getFields(subfield_data)

    print("Person: "+str(name))
    print("Fields: "+str(fields))
    print("Sub_Fields:"+str(subfields))

这给了我：

Person: personA
Fields: {'field1': 'data1', 'field2': 'data2', 'fieldN': 'dataN'}
Sub_Fields:{'fieldx1': 'datax1', 'fieldxN': 'dataxN'}
Person: personB
Fields: {'field1': 'data1', 'field2': 'data2', 'fieldN': 'dataN'}
Sub_Fields:{}

所以您可以根据子字段是None还是其他情况来调整输出。这样做的目的是让您的数据输入到更灵活的结构中，而不是像您所做的那样进行“暴力”解析。在上面的例子中，我使用了split()来提供一种更灵活的方法，而不是依赖于查找确切的名称。显然这也取决于你的设计要求。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章