重叠记分矩阵生物塞顿

from Bio.Alphabet import IUPAC from Bio import SeqIO from Bio import pairwise2 fasta_file = SeqIO.parse('unambiguous.fasta', 'fasta', alphabet=IUPAC.ambiguous_dna) all_seq = [] for seq_record in fasta_file: all_seq += [str(seq_record.seq)] compare = pairwise2.align.globalms(all_seq[0], all_seq[1], 2, -1, -1, 0) print(compare)

1条回答

网友

1楼 · 发布于 2024-06-19 19:28:20

据我所知，unambiguous.fasta包含对齐的遗传序列。您可以使用符合您需要的评分功能对其进行评分：

from itertools import starmap, combinations


def score(seq1, seq2):
    def score_(a, b):
        return (0 if a == b == "-" # both are gaps
                else -1 if a != b  # mismatch or gap
                else 2)            # match

    return sum(starmap(score_, zip(seq1, seq2)))

您可能需要修改它以忽略基础不明确的位置，就像人们通常所做的那样。这里有一种比较所有序列的简便方法：

^{pr2}$

一旦执行，scores（注意它是一个惰性迭代器）将生成分数对矩阵的平坦上三角。score应该可以很快地工作，尽管您可能希望在使用Cython或Numba时重新实现，以防有数千个序列（即要计算数百万个比较）。在

在python2.x上，您可能希望将zip替换为izip。在

相关问题更多 >

编程相关推荐

热门问题

热门文章