将结构化（机器的结构）文本文件（configfile）解析为结构化表形式

******A MANO:111111 ,20190726,001,0914,06621242746 DXS*HAWA776A0A*VA*V0/6*1 ST*001*0001 ID1*HAW250755*VMI1-9900****250755*6*0 CB1*021545*DeBright*7.030.16*3.02*250755 PA1*0*100 PA1*1*60 PA2*2769*166140*210*12600*0*0*0*0 ******E MANO:111111 ,20190726,001,0914,06621242746 ******A MANO:222222 ,20190726,001,0914,06621242746 DXS*HAWA776A0A*VA*V0/6*1 ST*001*0001 ID1*HAW250755*VMI1-9900****250755*6*0 CB1*021545*DeBright*7.030.16*3.02*250755 PA1*0*100 PA1*1*60 PA2*2769*166140*210*12600*0*0*0*0 ******E MANO:222222 ,20190726,001,0914,06621242746

from pyparsing import * ''' grammar: object_nr ::= Word(nums, exact=6) num ::= '0' | '1' | '2' | '3' | '4' | '5' | '6' | '7' | '8' | '9' ''' path_input = r'\\...\...' with open(path_input) as input_file: line = input_file.readline() cnt = 1 object_nr_parser = Word(nums, exact=6) for match, start, stop in object_nr_parser.scanString(input_file): print(match, start, stop)

{"object": "111111", "line1":"DXS*HAWA776A0A*VA*V0/6*1", "line2":"ST*001*0001", "line3":"ID1*HAW250755*VMI1-9900****250755*6*0", "line4":"CB1*021545*DeBright*7.030.16*3.02*250755", "line5":"PA1*0*100", "line6":"PA1*1*60", "line7":"PA2*2769*166140*210*12600*0*0*0*0"}, {"object": "222222", "line1":"DXS*HAWA776A0A*VA*V0/6*1", "line2":"ST*001*0001", "line3":"ID1*HAW250755*VMI1-9900****250755*6*0", "line4":"CB1*021545*DeBright*7.030.16*3.02*250755", "line5":"PA1*0*100", "line6":"PA1*1*60", "line7":"PA2*2769*166140*210*12600*0*0*0*0", "line8":"PA2*2769*166140*210*12600*0*0*0*0", "line9":"PA2*2769*166140*210*12600*0*0*0*0", "line10":"PA2*2769*166140*210*12600*0*0*0*0"}

1条回答

网友

1楼 · 发布于 2024-06-24 13:40:34

你可以逐行解析：

import re

with open('file.txt', 'r') as f:
    lines = f.readlines()
    lines = [x.strip() for x in lines]

result = []
name = ''
i = 1
for line in lines:
    if 'A MANO' in line:
        name = re.findall('A MANO:(\d+)', line)[0]
        result.append({'object': name})
        i = 1
    elif 'E MANO' not in line:
        result[-1][f'line{i}'] = line
        i += 1

输出：

[{
        'object': '111111',
        'line1': 'DXS*HAWA776A0A*VA*V0/6*1',
        'line2': 'ST*001*0001',
        'line3': 'ID1*HAW250755*VMI1-9900****250755*6*0',
        'line4': 'CB1*021545*DeBright*7.030.16*3.02*250755',
        'line5': 'PA1*0*100',
        'line6': 'PA1*1*60',
        'line7': 'PA2*2769*166140*210*12600*0*0*0*0'
    }, {
        'object': '222222',
        'line1': 'DXS*HAWA776A0A*VA*V0/6*1',
        'line2': 'ST*001*0001',
        'line3': 'ID1*HAW250755*VMI1-9900****250755*6*0',
        'line4': 'CB1*021545*DeBright*7.030.16*3.02*250755',
        'line5': 'PA1*0*100',
        'line6': 'PA1*1*60',
        'line7': 'PA2*2769*166140*210*12600*0*0*0*0'
    }
]

但我建议使用更紧凑的输出格式：

import re

with open('file.txt', 'r') as f:
    lines = f.readlines()
    lines = [x.strip() for x in lines]

result = {}
name = ''
for line in lines:
    if 'A MANO' in line:
        name = re.findall('A MANO:(\d+)', line)[0]
        result[name] = []
    elif 'E MANO' not in line:
        result[name].append(line)

输出：

{
    '111111': ['DXS*HAWA776A0A*VA*V0/6*1', 'ST*001*0001', 'ID1*HAW250755*VMI1-9900****250755*6*0', 'CB1*021545*DeBright*7.030.16*3.02*250755', 'PA1*0*100', 'PA1*1*60', 'PA2*2769*166140*210*12600*0*0*0*0'],
    '222222': ['DXS*HAWA776A0A*VA*V0/6*1', 'ST*001*0001', 'ID1*HAW250755*VMI1-9900****250755*6*0', 'CB1*021545*DeBright*7.030.16*3.02*250755', 'PA1*0*100', 'PA1*1*60', 'PA2*2769*166140*210*12600*0*0*0*0']
}

相关问题更多 >

编程相关推荐

热门问题

热门文章