我正在写一个程序,读取一个文本文件并解析其中的信息。文本文件的示例如下:
->DQB1*02:02:01:01
GAACTTTGCTCTTTTCACCAAAACTTAAGGCTCCTCAGGGTGTGTCTAAGACAACAGCAGTAAAAATGTCTATGACAGCAATTTTCTCTCCCCTGAAATATGATCCCCACTTAATTTGCCCTATTGAAAGAATCCCAAGTATAAGAACAACTGGTTTTTAATCAATATTACAAAGATGTTTACTGTTGAATCGCATTTTTCTTTGGCTTCTTAAAATCCCTTAGGCATTCAATCTTCAGCTCTTCCATAAT
->OMIXON_CONSENSUS_M-86-11-9517_DQB1*02:02:01
GTCCAAGCTGTGTTGACTACCACTACTTTTCCCTTCGTCTCAATTATGTCTTGGAAGAAGGCTTTGCGGATCCCTGGAGGCCTTCGGGTAGCAACTGTGACCTTGATGCTGGCGATGCTGAGCACCCCGGTGGCTGAGGGCAGAGACTCTCCCGGTAAGTGCAGGGCCACTGCTCTCCAGAGCCGCCACTCTGGGAACAGGCTCTCCTTGGGCTGGGGT
->GENDX_CONSENSUS_M-86-11-9517_DQB1*02:02:01:01
TGCCAGGTACATCAGATCCATCAGGTCCAAGCTGTGTTGACTACCACTACTTTTCCCTTCGTCTCAATTATGTCTTGGAAGAAGGCTTTGCGGATCCCTGGAGGCCTTCGGGTAGCAACTGTGACCTTGATGCTGGCGATGCTGAGCACCCCGGTGGCTGAGGGCAGAGACTCTCCCGGTAAGTGCAGGGCCACTGCTCTCCAGAGCCGCCACTCTGGGA
我试图将所有以>
开始的行作为标题,这样我就可以创建一个标题数组,其余的文本作为一个序列数组,这样之后我就可以对齐序列并进行解析。我在分配标题时遇到问题。到目前为止,我的代码如下:
def readfile():
with open ("testAllele1.txt", "r") as myfile:
y = myfile.read()
with open(y) as z:
for line in z: # build array
counter=1
if line.startswith(">"): #header array
header(counter)=line
counter=counter+1
else:
sequence(counter)=line #sequence array
请帮帮我(另外,我像一个初学者到中级程序员,所以没有什么太难的请)
你的例子是错误的。 所有行都以
->
开头所以我假设你想在第一个空格处拆分它们
相关问题 更多 >
编程相关推荐