我现在有一个300000多个用于解析文件的FASTQ标识符代码的列表。在
我的文件结构当前设置如下:
@[FASTQ identifier] [random text]
[DNA sequence]
+
[DNA sequence quality score]
这个4行结构在整个文件中重复出现。当前脚本的设置方式是从FASTQ文件中提取FASTQ标识符,并查看它是否存在于FASTQ标识符列表中。如果是,则将其写入输出文件。但是,解析这些文件所需的时间非常慢(尤其是当列表包含1E6+标识符或FASTQ文件特别大时)。有没有办法让我的脚本更快地处理FASTQ文件?在
以下是我执行解析的代码部分:
with open (input_r1_file,'r') as input_file:
while True:
title = input_file.readline()
sequence = input_file.readline()
extra = input_file.readline()
quality = input_file.readline()
input_identifier = title.split(' ')[0][1:]
if input_identifier in alpha_identifier_list:
output_file_r1a.write(title)
output_file_r1a.write(sequence)
output_file_r1a.write(extra)
output_file_r1a.write(quality)
alpha_identifier.remove(input_identifier)
else:
pass
if len(title) == 0:
break
目前没有回答
相关问题 更多 >
编程相关推荐