将文件中多行的记录读入python中的嵌套字典

Sample Name: CanNAM1_192 SNPs : 5392 MNPs : 0 Insertions : 248 Deletions : 359 Phased Genotypes : 8.8% (2349/26565) MNP Het/Hom ratio : - (0/0) Sample Name: CanNAM2_195 SNPs : 5107 MNPs : 0 Insertions : 224 Deletions : 351 Phased Genotypes : 8.9% (2375/26560) MNP Het/Hom ratio : - (0/0) Sample Name: CanNAM3_196 SNPs : 4926 MNPs : 0 Insertions : 202 Deletions : 332 Phased Genotypes : 8.0% (2138/26582) MNP Het/Hom ratio : - (0/0)

import sys filename=sys.argv[1] Dictn = {} with open(filename, 'r') as fh: for line in fh: while True: if line.startswith('Sample Name'): nameLine = line.strip() ID = nameLine.split(':') else: line2 = next(fh).strip() line2 = line2.split(':') print (line2[0], line2[1]) # For debugging to see the parsing result line3 = next(fh).strip().split(':') line4 = next(fh).strip().split(':') line5 = next(fh).strip().split(':') line6 = next(fh).strip().split(':') line7 = next(fh).strip().split(':') Dictn.update({ ID[1]: { line2[0]: line2[1], line3[0]: line3[1], line4[0]: line4[1], line5[0]: line5[1], line6[0]: line6[1], line7[0]: line7[1], } }) break print(Dictn) Dictn.get('CanNAM1_192') # {CanNAM1_192:{ {'SNPs' : '5392'}, {'MNPs' : '0'}, {'Insertions' : '248'}, {'Deletions' : '359'}, {'Phased Genotypes' : '8.8%'}, {'MNP Het/Hom ratio' : '-'} }}

2条回答

网友

1楼 · 编辑于 2024-10-01 05:03:53

data = {}
with open("data.txt",'r') as fh:
    for line in fh.readlines(): #read in multiple lines
        if len(line.strip())==0:
            continue

        if line.startswith('Sample Name'):
            nameLine = line.strip()
            name = nameLine.split(": ")[1]
            data[name] = {}
        else:
            splitLine = line.split(":")
            variableName = splitLine[0].strip()
            value = splitLine[1].strip()
            data[name][variableName] = value

print(data)

确保你正在读的那行不是空的。如果将空行中的所有空格去掉，将得到一个长度为零的字符串。我们只是检查一下。你知道吗
如果该行以Sample Name开头，我们知道id将位于冒号和空格之后。我们可以用这些字符来划分。id将是分割行的第二部分，因此我们只得到索引1处的项。你知道吗
在变量中跟踪当前id（我称之为name）。为该id创建一个空的嵌套字典条目
如果该行不是ID行，则它必须是与上次输入的ID关联的数据行
我们得到这条线，把它除以:。变量的名称在左边，第一项在右边，值在右边，所以第二项在右边。一定要把两边多余的空间都去掉。你知道吗
将变量和值对添加到ID的字典条目中

网友

2楼 · 编辑于 2024-10-01 05:03:53

在这个问题上花了更多的时间，得到了一个解决方案，它看起来是“强>不<强”>“Python”，因为我的代码处理第一个“记录”（8行数据，包括底部的空白行）是其余的冗余。你知道吗

import itertools
data = {}
with open("vcfstats.txt", 'r') as f:
    for line in f:
        if line.strip():                #Non blank line
            if line.startswith('Sample Name'):
                nameLine = line.strip()
                name = nameLine.split(": ")[1].strip()
                data[name] = {}
            else:
                splitLine = line.split(": ")
                variableName = splitLine[0].strip()
                values = splitLine[1].strip().split(" ")
                data[name][variableName] = values[0]        #Only take the first item as value
        else:
             continue

    for line in itertools.islice(f, 8):
        lines = (line.rstrip() for line in f)          # including blank lines
        lines = list(line for line in lines if line)   # skip blank lines

        for line in lines:
            if line.startswith('Sample Name'):
                nameLine = line.strip()
                name = nameLine.split(": ")[1].strip()
                data[name] = {}
            else:
                splitLine = line.split(": ")
                variableName = splitLine[0].strip()
                values = splitLine[1].strip().split(" ")
                data[name][variableName] = values[0]        #Only take the first item as value

我错过了什么？谢谢！你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章