Python从d行中提取并重新格式化字段名问题的回答

Python从d行中提取并重新格式化字段名

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

您只需使用一个正则表达式来拆分key=value对： <pre><code>import re key_value = re.compile('(?P<key>[A-Z]+)=(?P<value>\[^\s=;]+)(?:(?=;)|$)') </code></pre> 此表达式使用命名组，但如果您觉得更易于阅读，则可以不使用这些组： ^{pr2}$ <code>(?:..)</code>组是一个非捕获组；它仅用于标记<code>|</code>或符号应用于什么。该模式匹配<code>=</code>符号之前的大写字符，以及任何非空白、<code>=</code>或<code>;</code>字符，前提是在值后面有一个<code>;</code>或。在 这将为每行拆分键和值： <pre><code>>>> key_value = re.compile('(?P<key>[A-Z]+)=(?P<value>[^\s=;]+)(?:(?=;)|$)') >>> key_value.findall('Person1\tHEIGHT=60;WEIGHT=100;AGE=22') [('HEIGHT', '60'), ('WEIGHT', '100'), ('AGE', '22')] </code></pre> 这很容易就可以变成字典： <pre><code>>>> dict(key_value.findall('Person1\tHEIGHT=60;WEIGHT=100;AGE=22')) {'AGE': '22', 'WEIGHT': '100', 'HEIGHT': '60'} </code></pre> 然后可以使用<a href="http://docs.python.org/2/library/csv.html" rel="nofollow">^{<cd7>}</a>编写这些内容： <pre><code>import csv import re key_value = re.compile('(?P<key>[A-Z]+)=(?P<value>[^\s=;]+)(?:(?=;)|$)') with open(inputfilename) as infile, open(outputfilename, 'wb') as outfile: writer = csv.DictWriter(outfile, ('PERSON', 'HEIGHT', 'WEIGHT', 'AGE'), delimiter='\t') writer.writeheader() for line in infile: person = line.split('\t', 1)[0] row = dict(key_value.findall(line)) row['PERSON'] = person writer.writerow(row) </code></pre> 基于真实数据示例的演示： <pre><code>>>> dict(key_value.findall(' P=0.9626;IPU=.$.+1T.+1T.+;IRF=ncRNA;IUC=UTR3;IGN=NCRNA00115;IGI=NCRNA00115,RP11-206L10.16-001;IET=0;IEO=0;IEN=.;IHT=0;IHVC=0;IHD=.;IHI=.;IHN=.;IDI=.;IDN=.;ITMAF=.;ITAMR=.;ITASN=.;ITAFR=.;ITEUR=.;ITNRB=+A;ISF=.;ISD=.;ISM=.;ISX=.;\n')) {'ISX': '.', 'ITAMR': '.', 'IDN': '.', 'ISM': '.', 'IDI': '.', 'ISF': '.', 'ISD': '.', 'ITMAF': '.', 'IUC': 'UTR3', 'IGI': 'NCRNA00115,RP11-206L10.16-001', 'ITNRB': '+A', 'IHVC': '0', 'IET': '0', 'ITASN': '.', 'ITEUR': '.', 'ITAFR': '.', 'IEO': '0', 'IEN': '.', 'IGN': 'NCRNA00115', 'IRF': 'ncRNA', 'P': '0.9626', 'IHT': '0', 'IHI': '.', 'IHN': '.', 'IPU': '.$.+1T.+1T.+', 'IHD': '.'} </code></pre>

Python从d行中提取并重新格式化字段名

1 个回答

相关Python问题