我正在尝试将一个文件加载到一个具有非常特定格式的字典中。格式是一个>
字符,第一行后跟一个数字,第二行后跟一个唯一的字符串。数字表示看到字符串的次数。你知道吗
例如,可以使用一个线对
>5
ATGC
我需要把一个非常大的文件加载到一个字典中,这个字典将字符串映射到值,作为int
经过一番挖掘,我找到的最快方法是:
from itertools import izip
with open(args.sample_counts) as f:
data_counts = {seq.rstrip() : int(count.rstrip().lstrip(">")) for count, seq in izip(*[f]*2)}
在315gb的数据文件上大约需要2个小时。有没有人对如何使这更快有什么想法?你知道吗
目前没有回答
相关问题 更多 >
编程相关推荐