使用类型转换将已知格式的文件加载到字典中的最快方法

2024-09-27 02:18:54 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在尝试将一个文件加载到一个具有非常特定格式的字典中。格式是一个>字符,第一行后跟一个数字,第二行后跟一个唯一的字符串。数字表示看到字符串的次数。你知道吗

例如,可以使用一个线对

>5
ATGC

我需要把一个非常大的文件加载到一个字典中,这个字典将字符串映射到值,作为int

经过一番挖掘,我找到的最快方法是:

from itertools import izip

with open(args.sample_counts) as f:
    data_counts = {seq.rstrip() : int(count.rstrip().lstrip(">")) for count, seq in izip(*[f]*2)}

在315gb的数据文件上大约需要2个小时。有没有人对如何使这更快有什么想法?你知道吗


Tags: 文件方法字符串字典格式count数字字符

热门问题