用Python代码查找带有起始和终止密码子的DNA

sequence = "CCATGCTTGATCA" sequence_list = list(sequence) codon_list = ["ATG", "TAA", "TAG", "TGA"] position_list = [] length_sequence = len(sequence) length_codon = len(codon_list) length_position = len(position_list) n = length_sequence-1 while n >= 0: for i in range(0, len(codon_list)): codon_sub_list = list(codon_list[i]) if sequence_list[n] == codon_sub_list[2] and sequence_list[n-1] == codon_sub_list[1] and sequence_list[n-2] == codon_sub_list[0]: position_list.append(n-2) print(sequence_list[n], "@", n) print(sequence_list[n-1], "@", n-1) print(sequence_list[n-2], "@", n-2) n-=1 print(len(position_list)) print(sequence[position_list[length_position-1]:(position_list[0]+3)])

2条回答

网友

1楼 · 编辑于 2024-09-26 18:08:47

我发现你的原始代码有点不清楚（从右边开始搜索对我来说是违反直觉的），所以我试图编写一个替代方案。最重要的变化是，我现在从左到右遍历序列，并通过一次比对子序列来搜索密码子，而不是逐个核苷酸。这是我的代码，希望有一些有用的注释。这能满足你的需要吗？如果没有，请告诉我。在

sequence = "GAGCCATCTATTGCTTACATTTGCTTCTGACACAACTGTGTTCACTAGCAACCTCAAACAGACACCATGGTGCACCTGACTCCTGTGGAGAAGTCTGCCGTTACTGCCCTGTGGGGCAAGGTGAACGTGGATGAAGTTGGTGGTGAGGCCCTGGGCAGGTTGGTATCAAGGTTACAAGACAGGTTTAAGGAGACCAATAGAAACTGGGCATGTGGAGACAGAGAAGACTCTTGGGTTTCT"
codon_list = ["ATG", "TAA", "TAG", "TGA"]

# store the starting positions of the codons
found_codon_positions = []

# note that we can use len() and [] with strings as well, no need to
# convert to list first
n = len(sequence)
k = 0
while k < n-2:
    # extract a three-nucleotide subsequence
    possible_codon = sequence[k:k+3]
    if possible_codon in codon_list:
        found_codon_positions.append(k)
    k += 1

print('found codons at indices {}'.format(found_codon_positions))

print('extracted sequence:')
print(sequence[found_codon_positions[0]:found_codon_positions[-1]+3])

输出：

^{pr2}$

网友

2楼 · 编辑于 2024-09-26 18:08:47

我不确定我是否遵循您的所有逻辑，但如果您想存储所有索引并找到开始的第一个和最后一个匹配的子序列：

def find_seq(s, cd):
    od = dict((s, []) for s in codon_list)
    mn, mx = None, None
    for n in range(len(s) - 1):
        seq = sequence[n:n + 3]
        if seq in od:
            od[seq].append((seq, n))
            if  mn is None:
                mn = n
            mx = n + 3
    return mn, mx, od

dict将包含找到的所有子序列以及每个子序列开始位置的索引：

^{pr2}$

相关问题更多 >

编程相关推荐

热门问题

热门文章