附加defaultdict

a CACAAAAAGCGGCGTGGATTGATATTGTAATACGACTCACTATAGACCAACACTAATAATTATATCACTTCGCCT b ACAGGNNNNNCTGCGTCTCAGGCGTTTTTTTTTTTTTTTTAAACAGCAAATTTTATTCATATACTAACCCCGCCT c CAGTTTTTTGTCTCAGGCGTTTTTTTTTTTAAAAATTTTTTTTATCCCGTTTTTATAAGGCTATACCTGTCCGCCT d CACACAAAAATGAGAGTGGATTGATTATGTAATACGACTCACTATAGGGTCGACAGCTTCGTCTTCGCCGCCTAA

defaultdict(<type 'list'>, {'bc1': [['a', 'CACAAAAAAGCGGCGTGGATTGATATGTAATACGACTCACTATAGACCAACACTAATAATTATATCACTTCGCCT\n'], ['d','CACACAAAAAATGAGAGTGGATTGATATGTAATACGACTCACTATAGGGTCGACAGCTTCGTCTTCGCCGCCTAA\n']], 'bc2': ['c', 'CAGTTTTTTGTCTCAGGCGTTTTTTTTTTTTTTTTTTTCACAAATAATCCCGTTTTTATAAAAACCTGTCCGCCT\n'], 'bc3':['ACAGGNNNNNCTGCGTCTCAGGCGTTTTTTTTTTTTTTTTAAACAGCAAATTTTATTCATATACTAACCCCGCCT\n']})

from collections import defaultdict my_dict = defaultdict(list) pattern='GCCT' with open("my_file.txt","r") as file: for lines in my_file.readlines(): line=lines.split("\t") bar=line[1][0:10] tail=line[1][-10:] for k,v in seq.items(): if v in bar and pattern in tail: my_dict[k].append(line)

1条回答

网友

1楼 · 发布于 2024-09-28 18:54:53

如果我理解正确，您的目标是在字符串的前15个字符（CACATAGAGCGCTGC）中找到具有特定字符串（如CACATA）的行，（我猜是dna）（CACATAGAGCGCTGCGTGGATTGATATGTAATACGACTCACTATAGACCAACACTAATAATTATATCACTTCTTAAAATGGCTAATTCATTTTTCTTATCCTTATTAGTGTTATTC）

在这种情况下，代码中的seq太长了

with open("my_file.txt","r") as file:
        for lines in file.readlines():
                line=lines.split("\t")
                # seq=line[1][0:55]
                seq=line[1][0:15]
                for k,v in barcodes.items():
                        if v in seq:
                                my_dict[k].append(lines)

相关问题更多 >

编程相关推荐

热门问题

热门文章