用于分析Python中复杂的制表符分隔/csv文件的循环

#header1 #header2 #header3 #header4 #header5 ID1 asdf asdk asdfk asdfkl adsfkln askdlfn safsda asdf Notes1.. ID2 asdf asdk asdfk asdfkl adsfkln askdlfn safsda asdf Notes2.. ID3 asdf asdk asdfk asdfkl adsfkln askdlfn safsda asdf Notes3.. ID4 asdf asdk asdfk asdfkl adsfkln askdlfn safsda asdf Notes4..

import csv list_all = list(csv.reader(open(r'complex_tabbed_file.gff', 'rb'), delimiter='\t')) d = dict() ID = data[5][0] #starting at 5 to skip the header lines notes = data[5][8] d[ID]= notes print (d)

3条回答

网友

1楼 · 编辑于 2024-10-01 07:17:30

有时完全跳过csv模块比较容易：

from pprint import pprint
d = dict()
with open('complex_tabbed_file.gff') as input_file:
  for line in input_file:
    line = line.split('\t')
    if len(line) > 1:
      d[line[0]] = [line[-1].strip()]

pprint(d)

网友

2楼 · 编辑于 2024-10-01 07:17:30

读你的代码确实让我怀疑你是否读过文档？第一个小示例循环遍历所有条目/行…：http://docs.python.org/2/library/csv.html

总之，csv模块无法过滤出注释，但是可以使用python自己的filter：

import csv
d = dict()
f = file('data.csv')
data = csv.reader(filter(lambda row: row[0]!='#', f), delimiter='\t')
for row in data:
  #print row
  d.update({row[0]: row[1:]})
f.close()
print(d)

你也可以考虑用DictReader代替reader。。。在

网友

3楼 · 编辑于 2024-10-01 07:17:30

您可以迭代每一行来解决它，并丢弃只有一个字段（标题）的字段：

import csv
import sys

d = dict()

with open(sys.argv[1], newline='') as csvfile:
    csvreader = csv.reader(csvfile, delimiter='\t')
    for row in csvreader:
        if len(row) == 1: continue
        _d = {row[0]: [row[-1]]}
        d.update(_d)

print(d)

运行方式如下：

^{pr2}$

结果是：

{
    'ID4': ['Notes4..'], 
    'ID1': ['Notes1..'], 
    'ID2': ['Notes2..'], 
    'ID3': ['Notes3..']
}

相关问题更多 >

编程相关推荐

热门问题

热门文章