分析缺少字段的制表符分隔文件

ENTRY map0010\tNAME Glycolysis\tDESCRIPTION Glycolysis is the process of converting glucose into pyruvate\tCLASS Metabolism\tDISEASE H00071 Hereditary fructose intolerance\tH00072 Pyruvate dehydrogenase complex deficiency\tDBLINKS GO: 0006096 0006094 ENTRY map00020\tNAME Citrate cycle (TCA cycle)\tCLASS Metabolism; Carbohydrate Metabolism\tDISEASE H00073 Pyruvate carboxylase deficiency\tDBLINKS GO: 0006099\tREL_PATHWAY map00010 Glycolysis / Gluconeogenesis\tmap00053 Ascorbate and aldarate metabolism

input = open('file', 'r') dict = ["ENTRY", "NAME", "CLASS", "DISEASE", "DBLINKS", "REL_PATHWAY"] split_tab = [] output = [] for line in input: split_tab.append(line.split('\t')) for item in dict: for element in split_tab: if item in element: output.append(element) else: output.append('\tNA\t')

3条回答

网友

1楼 · 编辑于 2024-06-26 13:40:26

你的台词

^{bq}$

把事情搞砸了。你在单子里列一个单子。试试这个：

split_tab = line.split('\t')

网友

2楼 · 编辑于 2024-06-26 13:40:26

使用内置的csv库。你的工作会容易得多。在

对于一些示例代码：

import csv
reader = csv.reader(open('myfile.csv', 'rb'), dialect='excel-tab')
fieldnames = ['Name','Class']
writer = csv.DictWriter(open('myfile.csv', 'rb'), fieldnames, restval='', extrasaction='ignore', dialect='excel-tab')

for row in reader:
    newrow = {}
    for field in row:
        key = field.split(' ', 1)[0]
        newrow[key] = field
    writer.writerow(newrow)

特别注意听写器的设置。如果包含restval和extrasaction字段，则使用起来更加容易。它们允许您传递一个字典，其值大于或小于编写者的预期值。在

只需适当设置字段名，并设置读取器使用正确的方言。这可能包括添加您自己的，但是csv链接有关于如何添加的说明。在

编辑

在Rob发表评论后，我修改了这篇文章，以考虑到csv方言并不像我想象的那么强大。在

网友

3楼 · 编辑于 2024-06-26 13:40:26

requiredKeys = 'ENTRY NAME CLASS DISEASE DBLINKS REL_PATHWAY'.split(' ')

for line in open('file', 'r'):
    fields = line.split('\t')
    fieldMap = {}
    for field in fields:
        key = field.split(' ', 1)[0]
        fieldMap[key] = field
    print '\t'.join([fieldMap.get(key, 'NA') for key in requiredKeys])

相关问题更多 >

编程相关推荐

热门问题

热门文章