我的代码中的错误:在另一个序列中识别序列

2024-09-28 03:21:44 发布

您现在位置:Python中文网/ 问答频道 /正文

我的当前代码:

import re
from Bio.Seq import Seq


def check_promoter(binding_element,promoter_seq):
promoter_seq = str(promoter_seq)
        residues = list()
        for i in range(0,len(promoter_seq)):
            if binding_element[0] == promoter_seq[i]:
                ind = promoter_seq[i]
                for j in range(0,len(binding_element)):
                    if binding_element[0+j] == promoter_seq[i+j-len(binding_element)]:
                        residues.append(i+j-len(binding_element))
        return residues 


ESR1_promoter = Seq('''aagtcaggctgagagaatctcagaaggttgtggaagggtctatctacttt\
gggagcattttgcagaggaagaaactgaggtcctggcaggttgcattctc\
ctgatggcaaaatgcagctcttcctatatgtataccctgaatctccgccc\
ccttcccctcagatgccccctgtcagttcccccagctgctaaatatagct\
gtctgtggctggctgcgtatgcaaccgcacaccccattctatctgcccta\
tctcggttacagtgtagtcctccccagggtcatcctatgtacacactacg\
tatttctagccaacgaggagggggaatcaaacagaaagagagacaaacag\
agatatatcggagtctggcacggggcacataaggcagcacattagagaaa\
gccggcccctggatccgtctttcgcgtttattttaagcccagtcttccct\
gggccacctttagcagatcctcgtgcgcccccgccccctggccgtgaaac\
tcagcctctatccagcagcgacgacaagtaaagtaaagttcagggaagct\
gctctttgggatcgctccaaatcgagttgtgcctggagtgatgtttaagc\
caatgtcagggcaaggcaacagtccctggccgtcctccagcacctttgta\
atgcatatgagctcgggagaccagtacttaaagttggaggcccgggagcc\
caggagctggcggagggcgttcgtcctgggactgcacttgctcccgtcgg\
gtcgcccggcttcaccggacccgcaggctcccggggcagggccggggcca\
gagctcgcgtgtcggcgggacatgcgctgcgtcgcctctaacctcgggct\
gtgctctttttccaggtggcccgccggtttctgagccttctgccctgcgg\
ggacacggtctgcaccctgcccgcggccacggaccatgaccatgaccctc\
cacaccaaagcatctgggatggccctactgcatcagatccaagggaacga''')
ESR1_complement = ESR1_promoter.complement()

SBE = 'CAGACA'

print check_promoter(SBE,ESR1_promoter)
print check_promoter(SBE,ESR1_complement)

当我使用字符串“aa”进行测试并返回找到“aa”的索引列表时,此代码起作用,但当我使用其他序列(即“tcc”)进行测试时,如果序列中明显存在“tcc”,则找不到匹配项。此外,字符串“CAGACA”是用补码字符串中的re.findall方法标识的,但这不提供索引

有人能指出我做错了什么吗

另外,还有一个次要的问题-正如你所看到的,我有点作弊,因为我的代码只检查第一个:

promoter_seq[i+j-len(binding_element)]

元素,因为我得到一个索引错误。有人知道怎么解决这个问题吗

谢谢


Tags: 字符串代码importrelencheckelementseq
1条回答
网友
1楼 · 发布于 2024-09-28 03:21:44

我很惊讶在Bio中没有预先存在的函数来执行这种类型的搜索-这似乎是一种非常常见的操作。也许您需要花一些时间来处理文档

无论如何,您可以使用re.finditer(),它将返回一个返回匹配对象的迭代器:

import re
from Bio.Seq import Seq

def check_promoter(binding_element, promoter_seq):
    return [m.start() for m in
               re.finditer(str(binding_element).lower(),
                           str(promoter_seq).lower())]

ESR1_promoter = Seq('aagtcaggctgagagaatctcagaaggttgtggaagggtctatctactttgggagcattttgcagaggaagaaactgaggtcctggcaggttgcattctcctgatggcaaaatgcagctcttcctatatgtataccctgaatctccgcccccttcccctcagatgccccctgtcagttcccccagctgctaaatatagctgtctgtggctggctgcgtatgcaaccgcacaccccattctatctgccctatctcggttacagtgtagtcctccccagggtcatcctatgtacacactacgtatttctagccaacgaggagggggaatcaaacagaaagagagacaaacagagatatatcggagtctggcacggggcacataaggcagcacattagagaaagccggcccctggatccgtctttcgcgtttattttaagcccagtcttccctgggccacctttagcagatcctcgtgcgcccccgccccctggccgtgaaactcagcctctatccagcagcgacgacaagtaaagtaaagttcagggaagctgctctttgggatcgctccaaatcgagttgtgcctggagtgatgtttaagccaatgtcagggcaaggcaacagtccctggccgtcctccagcacctttgtaatgcatatgagctcgggagaccagtacttaaagttggaggcccgggagcccaggagctggcggagggcgttcgtcctgggactgcacttgctcccgtcgggtcgcccggcttcaccggacccgcaggctcccggggcagggccggggccagagctcgcgtgtcggcgggacatgcgctgcgtcgcctctaacctcgggctgtgctctttttccaggtggcccgccggtttctgagccttctgccctgcggggacacggtctgcaccctgcccgcggccacggaccatgaccatgaccctccacaccaaagcatctgggatggccctactgcatcagatccaagggaacga')
ESR1_complement = ESR1_promoter.complement()

SBE = 'CAGACA'

>>> check_promoter(SBE, ESR1_promoter)
[]
>>> check_promoter(SBE, ESR1_complement)
[200]
>>> check_promoter('tcc', ESR1_promoter)
[80, 98, 121, 143, 153, 177, 267, 270, 282, 413, 445, 467, 510, 565, 622, 632, 635, 723, 741, 778, 860, 948, 987]
>>> check_promoter('TCC', ESR1_promoter)
[80, 98, 121, 143, 153, 177, 267, 270, 282, 413, 445, 467, 510, 565, 622, 632, 635, 723, 741, 778, 860, 948, 987]

>>> check_promoter(Seq('CAGACA'), ESR1_complement)

请注意,binding_element可以是Seq或字符串,并且它区分大小写,因此它被转换为小写,以便按promoter_seq进行搜索

相关问题 更多 >

    热门问题