使用Biopython替换文件之间的序列

>gi|564250271|ref|XP_006264203.1| PREDICTED: apolipoprotein D [Alligator mississippiensis] MRGMLALLAALLGLLGLVEGQTFHMGQCPNPPVQEDFDPSKYLGKWYEIEKLPSGFEQER CVQANYSLKANGKIKVLTKMVRSAQHLTCLQHRMMLLVSSPVMPASPYWVVATDYENYAL VYSCTSFFWLFHVDYAWIRSRTPQLHPETVEHLKSVLRSYRIQTGMMLPTDQMNCPSDM

from Bio import SeqIO file1 = SeqIO.parse(r"c:\Users\Sergio\Desktop\nsp.fasta", "fasta") file2 = SeqIO.parse(r"c:\Users\Sergio\Desktop\wsp.fasta", "fasta") for seq1 in file1: for seq2 in file2: if seq2.id == seq1.id: seq1.seq = seq2.seq SeqIO.write(seq1, r"c:\Users\Sergio\Desktop\nuevsp.fasta", "fasta")

to_write = [] for seq1 in SeqIO.parse(r"c:\Users\Sergio\Desktop\nsp.txt", "fasta"): for seq2 in SeqIO.parse(r"c:\Users\Sergio\Desktop\wsp.txt", "fasta"): if seq1.id == seq2.id: seq1.seq = seq2.seq to_write.append(seq1) elif seq1.id != seq2.id: to_write.append(seq1) SeqIO.write(to_write, r"c:\Users\Sergio\Desktop\nuevsp.txt", "fasta")

1条回答

网友

1楼 · 发布于 2024-10-03 06:27:19

正如你写的那样，每次你写一个新的序列，你就会覆盖上一个。尝试将记录存储在列表中，然后在循环完成后写出该列表。在

to_write = []
for seq1 in SeqIO.parse(r"c:\Users\Sergio\Desktop\nsp.fasta", "fasta"):
    for seq2 in SeqIO.parse(r"c:\Users\Sergio\Desktop\wsp.fasta", "fasta"):
        if seq2.id == seq1.id:
            seq1.seq = seq2.seq
            to_write.append(seq1)
SeqIO.write(to_write, r"c:\Users\Sergio\Desktop\nuevsp.fasta", "fasta")

编辑以建议使用列表理解的另一种方法：

^{pr2}$

编辑以解决“将记录添加到nsp.法斯塔这不匹配wsp.fasta公司“需要-一般方法，不一定是精确的代码：

ids_not_wanted = [x.id for x in SeqIO.parse(r"c:\Users\Sergio\Desktop\wsp.fasta", "fasta")]
records_to_save_2 = [x for x in SeqIO.parse(r"c:\Users\Sergio\Desktop\wsp.fasta", "fasta") if (x.id not in ids_not_wanted)]

records_to_save.append(records_to_save_2)
# If duplicate records are a problem, eliminate them using "set"
records_to_save = list(set(records_to_save))
SeqIO.write(records_to_save, r"c:\Users\Sergio\Desktop\nuevsp.fasta", "fasta")

相关问题更多 >

编程相关推荐

热门问题

热门文章