用python/biopython计算DNA序列

2024-09-30 18:19:36 发布

您现在位置:Python中文网/ 问答频道 /正文

我下面的脚本正在计算标准FASTA文件中序列“ccccaaa”和“GGGGTTTT”的出现次数:

>contig00001  
CCCCAAAACCCCAAAACCCCAAAACCCCTAcGAaTCCCcTCATAATTGAAAGACTTAAACTTTAAAACCCTAGAAT

脚本对CCCCAAAA序列计数3次

ccccaaacccaaccaaccaaaa(不计算CCCC)

有人能告诉我如何将CCCC序列包含在末尾作为半计数来返回3.5的值。在

到目前为止,我的尝试都没有成功。在

我的剧本如下。。。在

^{pr2}$

Tags: 文件脚本标准序列次数fastacccc计数
1条回答
网友
1楼 · 发布于 2024-09-30 18:19:36

可以使用“拆分”和“开始”列表理解,如下所示:

contig="CCCCAAAACCCCAAAACCCCAAAACCCCTAcGAaTCCCcTCATAATTGAAAGACTTAAACTTTAAAACCCTAGAAT"
splitbase="CCCCAAAA"
halfBase="CCCC"
splittedContig=contig.split(splitbase)
cnt=len(splittedContig)-1
print cnt+sum([0.5 for e in splittedContig if e.startswith(halfBase)])

输出:

^{pr2}$
  1. 基于CCCCAAAA拆分字符串。{cd1>中的元素将被移除
  2. splitted-1的长度给出CCCCAAAA的出现次数
  3. 在拆分的元素中,查找以CCCC开头的元素。如果找到,则将每次发生的次数加0.5。在

相关问题 更多 >