我有一个csv文件的格式如下,我正在尝试正常化。数字表示关联字符串的计数。该文件包含近10万个条目。在
159028,CASSVDGSYEQYFGPG
86832,CASSLQLYFGEG
74720,CASSQDQDTQYFGPG
71701,CASSRVGSDYTFGSG
69360,CARNVTPPKSYAVFFGKG
52458,CAAEQFFGPG
51406,CASSSGDQDTQYFGPG
50305,CASQLYFGEG
38745,CAYFGPG
32565,CASSPDWGENTLYFGAG
我试着用下面的方法创建一本词典
^{pr2}$结果
{'159028': '86832', 'CASSVDGSYEQYFGPG': 'CASSLQLYFGEG'}
{'159028': '74720', 'CASSVDGSYEQYFGPG': 'CASSQDQDTQYFGPG'}
{'159028': '71701', 'CASSVDGSYEQYFGPG': 'CASSRVGSDYTFGSG'}
{'159028': '69360', 'CASSVDGSYEQYFGPG': 'CARNVTPPKSYAVFFGKG'}
{'159028': '52458', 'CASSVDGSYEQYFGPG': 'CAAEQFFGPG'}
{'159028': '51406', 'CASSVDGSYEQYFGPG': 'CASSSGDQDTQYFGPG'}
{'159028': '50305', 'CASSVDGSYEQYFGPG': 'CASQLYFGEG'}
{'159028': '38745', 'CASSVDGSYEQYFGPG': 'CAYFGPG'}
{'159028': '32565', 'CASSVDGSYEQYFGPG': 'CASSPDWGENTLYFGAG'}
...
而不是
{'CASSVDGSYEQYFGPG': 159028}
{'CASSLQLYFGEG': '86832'}
{'CASSQDQDTQYFGPG': '74720'}
{'CASSRVGSDYTFGSG': '71701'}
{'CARNVTPPKSYAVFFGKG': '69360'}
{'CAAEQFFGPG': '52458'}
{'CASSSGDQDTQYFGPG': '51406'}
{'CASQLYFGEG': '50305'}
{'CAYFGPG': '38745'}
{'CASSPDWGENTLYFGAG': '32565'}
...
我还尝试将csv文件转换为numpy数组,但得到以下结果:
>>>from numpy import genfromtxt
>>>data = genfromtxt('data.csv', delimiter=',')
>>>data
array([[ 1.59028000e+05, nan],
[ 8.68320000e+04, nan],
[ 7.47200000e+04, nan],
...,
[ 1.00000000e+00, nan],
[ 1.00000000e+00, nan],
[ 1.00000000e+00, nan]])
通过Python,可能还有其他方法来规范化和处理这些数据。在
使用numpyloadtxt导入,如果需要,可以使用dict理解作为dict
^{} 有许多参数,学习正确的咒语来读取任何给定的文件可能需要一段时间。在
下面是如何使用你的文件。}:
genfromtxt
返回的数组data
是一个一维的structured array,有两个字段,分别称为count
和{相关问题 更多 >
编程相关推荐