计算蛋白质序列的所有可能的RNA密码子组合

codon_table = { 'A': ('GCT', 'GCC', 'GCA', 'GCG'), 'C': ('TGT', 'TGC'), 'D': ('GAT', 'GAC'), 'E': ('GAA', 'GAG'), 'F': ('TTT', 'TTC'), 'G': ('GGT', 'GGC', 'GGA', 'GGG'), 'H': ('CAT', 'CAC'), 'I': ('ATT', 'ATC', 'ATA'), 'K': ('AAA', 'AAG'), 'L': ('TTA', 'TTG', 'CTT', 'CTC', 'CTA', 'CTG'), 'M': ('ATG',), 'N': ('AAT', 'AAC'), 'P': ('CCT', 'CCC', 'CCA', 'CCG'), 'Q': ('CAA', 'CAG'), 'R': ('CGT', 'CGC', 'CGA', 'CGG', 'AGA', 'AGG'), 'S': ('TCT', 'TCC', 'TCA', 'TCG', 'AGT', 'AGC'), 'T': ('ACT', 'ACC', 'ACA', 'ACG'), 'V': ('GTT', 'GTC', 'GTA', 'GTG'), 'W': ('TGG',), 'Y': ('TAT', 'TAC'),}

[('ATT', 'ATC', 'ATA'), ('GAA', 'GAG'), ('GAA', 'GAG'), ('GCT', 'GCC', 'GCA', 'GCG'), ('ACT', 'ACC', 'ACA', 'ACG'), ('CAT', 'CAC'), ('ATG',), ('ACT', 'ACC', 'ACA', 'ACG'), ('CCT', 'CCC', 'CCA', 'CCG'), ('TGT', 'TGC'), ('TAT', 'TAC'), ('GAA', 'GAG'), ('TTA', 'TTG', 'CTT', 'CTC', 'CTA', 'CTG'), ('CAT', 'CAC'), ('GGT', 'GGC', 'GGA', 'GGG'), ('TTA', 'TTG', 'CTT', 'CTC', 'CTA', 'CTG'), ('CGT', 'CGC', 'CGA', 'CGG', 'AGA', 'AGG'), ('TGG',), ('GTT', 'GTC', 'GTA', 'GTG'), ('CAA', 'CAG'), ('ATT', 'ATC', 'ATA'), ('CAA', 'CAG'), ('GAT', 'GAC'), ('TAT', 'TAC'), ('GCT', 'GCC', 'GCA', 'GCG'), ('ATT', 'ATC', 'ATA'), ('AAT', 'AAC'), ('GTT', 'GTC', 'GTA', 'GTG'), ('ATG',), ('CAA', 'CAG'), ('TGT', 'TGC'), ('TTA', 'TTG', 'CTT', 'CTC', 'CTA', 'CTG')]

2条回答

网友

1楼 · 编辑于 2024-09-28 05:27:03

要计算组合的总数：

sequence_protein = 'IEEATHMTPCYELHGLRWVQIQDYAINVMQCL'
total_number_combinations = np.prod([ len(codon_table[aa]) for aa in sequence_protein ])

要生成所有可能的组合：

最优雅的是itertools：

from itertools import product

tRNA = [codon_table[aa] for aa in sequence_protein]
for i in product(*tRNA):
    #...do whatever you have to do with these combinations.

但是您可以使用自定义函数。只需使用yield，这样就不会一次生成所有序列并避免内存问题

网友

2楼 · 编辑于 2024-09-28 05:27:03

import itertools

list_codons = [('ATT', 'ATC', 'ATA'),
 ('GAA', 'GAG'),
 ('GAA', 'GAG'),
 ('GCT', 'GCC', 'GCA', 'GCG'),
 ('ACT', 'ACC', 'ACA', 'ACG'),
 ('CAT', 'CAC'),
 ('ATG',),
 ('ACT', 'ACC', 'ACA', 'ACG'),
 ('CCT', 'CCC', 'CCA', 'CCG'),
 ('TGT', 'TGC'),
 ('TAT', 'TAC'),
 ('GAA', 'GAG'),
 ('TTA', 'TTG', 'CTT', 'CTC', 'CTA', 'CTG'),
 ('CAT', 'CAC'),
 ('GGT', 'GGC', 'GGA', 'GGG'),
 ('TTA', 'TTG', 'CTT', 'CTC', 'CTA', 'CTG'),
 ('CGT', 'CGC', 'CGA', 'CGG', 'AGA', 'AGG'),
 ('TGG',),
 ('GTT', 'GTC', 'GTA', 'GTG'),
 ('CAA', 'CAG'),
 ('ATT', 'ATC', 'ATA'),
 ('CAA', 'CAG'),
 ('GAT', 'GAC'),
 ('TAT', 'TAC'),
 ('GCT', 'GCC', 'GCA', 'GCG'),
 ('ATT', 'ATC', 'ATA'),
 ('AAT', 'AAC'),
 ('GTT', 'GTC', 'GTA', 'GTG'),
 ('ATG',),
 ('CAA', 'CAG'),
 ('TGT', 'TGC'),
 ('TTA', 'TTG', 'CTT', 'CTC', 'CTA', 'CTG')]

counter = 0; max_proc = 1000000; list_seq = []

for x in itertools.product(*list_codons):
    counter += 1
    if counter % max_proc == 0:
        #Do your stuff by slice and clear the list
        list_seq = []
    list_seq.append(x)
    print (counter)
    print (x)

就这样，不再有内存问题了

要计算组合的总数：

要生成所有可能的组合：

相关问题更多 >

编程相关推荐

热门问题

热门文章