我试图获得一系列序列中包含的插入和间隔的数量,这些序列与它们被对齐的参考有关;因此,所有序列现在都具有相同的长度。
例如
>reference
AGCAGGCAAGGCAA--GGAA-CCA
>sequence1
AAAA---AAAGCAATTGGAA-CCA
>sequence2
AGCAGGCAAAACAA--GGAAACCA
在本例中,sequence1有两个插入(两个T)和三个间隙。最后一个间隙不应计算在内,因为它同时出现在引用和序列1中。Sequence2有一个插入(在最后一个三元组之前是A)并且没有间隙。(同样,间隙是与参考共享的,不应计入计数。)。序列1和序列2中也有3个多态性。在
我当前的脚本能够给出差异的估计值,但不能给出如上所述的“相关间隙和插入”的计数。例如
^{pr2}$我有点像Python新手,还在学习这种语言的工具。有没有办法做到这一点?我正在考虑拆分序列,一次迭代比较一个位置,并计算差异,但我不确定在Python中是否可行(更不用说它会非常慢)
这是
zip
函数的作业。我们并行地迭代引用和测试序列,看看其中一个在当前位置是否包含-
。我们使用该测试的结果来更新字典中插入、删除和未更改的计数。在输出
^{pr2}$这是一个更新版本,它也检查多态性。在
^{3}$输出
使用生物疗法和裸体:
这应输出与对齐顺序相同的计数数组:
^{pr2}$相关问题 更多 >
编程相关推荐