用Hamming距离z选择reads

def hamming(s1, s2): #Return the Hamming distance between equal-length sequences if len(s1) != len(s2): raise ValueError("Undefined for sequences of unequal length") return sum(ch1 != ch2 for ch1, ch2 in zip(s1, s2)) for x in Bio.SeqIO.parse("reads.fastq","fastq"): reads_array.append(x) nmer = 7 l_chosen = ['gttattt','attattt','tgctagt'] chosen_reads = [] for x in reads_array: s2 = str(x.seq) for s in [s2[i:i+nmer] for i in range(len(s2)-nmer-1)]: for ds in l_chosen: dist = hamming(ds,s) if dist == 0: print s2, s,ds,dist chosen_reads.append(x)

2条回答

网友

1楼 · 编辑于 2024-05-13 09:16:33

当前代码不会跳出循环从reads.fastq读取下一个read当它找到一个汉明距离为0的字符串时，应该使用标志来决定何时中断，并在需要中断时为该标志指定真值-

def hamming(s1, s2):
    #Return the Hamming distance between equal-length sequences
    if len(s1) != len(s2):
        raise ValueError("Undefined for sequences of unequal length")
    return sum(ch1 != ch2 for ch1, ch2 in zip(s1, s2))

for x in Bio.SeqIO.parse("reads.fastq","fastq"):
        reads_array.append(x)

nmer = 7

l_chosen = ['gttattt','attattt','tgctagt']
chosen_reads = []

for x in reads_array:
        s2 = str(x.seq)
        breakFlag = False
        for s in [s2[i:i+nmer] for i in range(len(s2)-nmer-1)]:
                for ds in l_chosen:
                        dist = hamming(ds,s)
                        if dist == 0:
                                print s2, s,ds,dist
                                chosen_reads.append(x)
                                breakFlag = True
                                break;
                if breakFlag:
                        break;

您确定要将x附加到chosen_reads中，这似乎是错误的，为了获得唯一的匹配，您应该添加s2字符串和匹配的ds对吗？如果这是您想要的，您可以像下面这样将一个元组附加到chosen_reads中，而不是当前的附加逻辑-

^{pr2}$

网友

2楼 · 编辑于 2024-05-13 09:16:33

如果我明白你在问什么，汉明距离正在试图找到至少一个“选择”字符串准确。你正在做的迭代是缓慢的，尝试突破可能是丑陋的。在

我可能会建议a regex是什么会有帮助。您可以自动创建匹配字符串：

import re
chosen_re = re.compile('|'.join(l_chosen))

chosen_reads = [x for x in reads_array if chosen_re.search(str(s.seq))]

你将很难击败正则表达式引擎的速度

相关问题更多 >

编程相关推荐

热门问题

热门文章