具有多个拆分点的python字符串拆分

def digestfragmentwithenzyme(seqs, enzymes): fragment = [] for seq in seqs: for enzyme in enzymes: results = [] prog = re.compile(enzyme[0]) for dingen in prog.finditer(seq): results.append(dingen.start() + enzyme[1]) results.reverse() #result = 0 for result in results: fragment.append(seq[result:]) seq = seq[:result] fragment.append(seq[:result]) fragment.reverse() return fragment

3条回答

网友

1楼 · 编辑于 2024-09-30 00:23:00

下面是一些应该使用regex的方法。在这个解决方案中，我找到所有出现的酶串，并使用它们对应的索引进行拆分。在

def digestfragmentwithenzyme(seqs, enzymes):
    out = []
    dic = dict(enzymes) # dictionary of enzyme indices

    for seq in seqs:
        sub = []
        pos1 = 0

        enzstr = '|'.join(enz[0] for enz in enzymes) # "TC|GC" in this case
        for match in re.finditer('('+enzstr+')', seq):
            index = dic[match.group(0)]
            pos2 = match.start()+index
            sub.append(seq[pos1:pos2])
            pos1 = pos2
        sub.append(seq[pos1:])
        out.append(sub)
        # [['AATT', 'CCGGT', 'CGGGG', 'CT', 'CGGGGG'], ['AAAG', 'CAAAAT', 'CAAAAAAG', 'CAAAAAAT', 'C']]
    return out

网友

2楼 · 编辑于 2024-09-30 00:23:00

假设这个想法是在每种酶上分裂，在酶是多个字母的索引点，而分裂，本质上是在两个字母之间。不需要正则表达式。在

您可以通过查找匹配项并在正确的索引处插入拆分指示符，然后对结果进行后期处理以实际拆分。在

例如：

def digestfragmentwithenzyme(seqs, enzymes):
    # preprocess enzymes once, then apply to each sequence
    replacements = []
    for enzyme in enzymes:
        replacements.append((enzyme[0], enzyme[0][0:enzyme[1]] + '|' + enzyme[0][enzyme[1]:]))
    result = []
    for seq in seqs:
        for r in replacements:
            seq = seq.replace(r[0], r[1])   # So AATTC becomes AATT|C
        result.append(seq.split('|'))       # So AATT|C becomes AATT, C
    return result

def test():
    seqs = ["AATTCCGGTCGGGGCTCGGGGG","AAAGCAAAATCAAAAAAGCAAAAAATC"]
    enzymes = [["TC", 1],["GC",1]]
    print digestfragmentwithenzyme(seqs, enzymes)

网友

3楼 · 编辑于 2024-09-30 00:23:00

我的解决方案是：

将TC替换为T C，将GC替换为{}（这是根据给定的索引完成的），然后根据空格字符拆分。。。。在

def digest(seqs, enzymes):
    res = []
    for li in seqs:
        for en in enzymes: 
            li = li.replace(en[0],en[0][:en[1]]+" " + en[0][en[1]:])
        r = li.split()
        res.append(r)
    return res
seqs = ["AATTCCGGTCGGGGCTCGGGGG","AAAGCAAAATCAAAAAAGCAAAAAATC"]
enzymes = [["TC", 1],["GC",1]]
#enzymes = [["AAT", 2],["GC",1]]
print seqs
print digest(seqs, enzymes)

结果是：

对于([["TC", 1],["GC",1]])

^{pr2}$

对于([["AAT", 2],["GC",1]])

['AATTCCGGTCGGGGCTCGGGGG', 'AAAGCAAAATCAAAAAAGCAAAAAATC']
[['AA', 'TTCCGGTCGGGG', 'CTCGGGGG'], ['AAAG', 'CAAAA', 'TCAAAAAAG', 'CAAAAAA', '
TC']]

相关问题更多 >

编程相关推荐

热门问题

热门文章