定义一个返回不同可能性的循环

def possible_sequences (seq): poss_seq = '' for i in seq: if i=='A'or i=='C'or i=='G'or i=='T': poss_seq += i else: if i== 'R': poss_seq += 'A' # OR 'G', how should i implement this? elif i == 'Y': poss_seq += 'C' # OR T elif i == 'S': poss_seq += 'G' # OR C elif i == 'W': poss_seq += 'A' # OR T elif i == 'K': poss_seq += 'G' # OR T elif i == 'M': poss_seq += 'A' # OR C elif i == 'B': poss_seq += 'C' # OR G OR T elif i == 'D': poss_seq += 'A' # OR G OR T elif i == 'H': poss_seq += 'A' # OR C OR T elif i == 'V': poss_seq += 'A' # OR C OR G elif i == 'N': poss_seq += 'A' # OR C OR G OR T elif i == '-' or i == '.': poss_seq += ' ' return poss_seq

1条回答

网友

1楼 · 发布于 2024-10-02 20:40:25

您可以使用^{}生成可能性：

from itertools import product

# List possible nucleotides for each possible item in sequence
MAP = {
    'A': 'A',
    'C': 'C',
    'G': 'G',
    'T': 'T',
    'R': 'AG',
    'Y': 'CT',
    'S': 'GC',
    'W': 'AT',
    'K': 'GT',
    'M': 'AC',
    'B': 'CGT',
    'D': 'AGT',
    'H': 'ACT',
    'V': 'ACG',
    'N': 'ACGT',
    '-': ' ',
    '.': ' '
}

def possible_sequences(seq):
    return (''.join(c) for c in product(*(MAP[c] for c in seq)))

print(list(possible_sequences('AYGH')))
print(list(possible_sequences('ATRY-C')))

输出：

['ACGA', 'ACGC', 'ACGT', 'ATGA', 'ATGC', 'ATGT']
['ATAC C', 'ATAT C', 'ATGC C', 'ATGT C']

在上面，我们首先迭代给定序列中的项目，得到每个项目可能的核苷酸列表：

possibilities = [MAP[c] for c in 'ATRY-C']
print(possibilities)

# ['A', 'T', 'AG', 'CT', ' ', 'C']

然后将iterable解压为给product的参数，该参数将返回笛卡尔积：

products = list(product(*['A', 'T', 'AG', 'CT', ' ', 'C']))
print(products)

# [('A', 'T', 'A', 'C', ' ', 'C'), ('A', 'T', 'A', 'T', ' ', 'C'), 
#  ('A', 'T', 'G', 'C', ' ', 'C'), ('A', 'T', 'G', 'T', ' ', 'C')]

最后，每个产品都变成一个带有^{}的字符串：

print(list(''.join(p) for p in products))

# ['ATAC C', 'ATAT C', 'ATGC C', 'ATGT C']

请注意，possible_sequences返回一个生成器，而不是一次构造所有可能的序列，因此您可以随时轻松停止迭代，而不必等待生成每个序列。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章