将列表中的一个元素与另一个列表中的所有元素进行比较

file = open("rosalind_grph2.txt", "r") gene_names, sequences, = [], [] seq = "" for line in file: if line[0] == ">": gene_names.append(line.strip()) if seq == "": continue sequences.append(seq) seq = "" if line[0] in "ATCG": seq = seq + line.strip() sequences.append(seq) #So far I put all I needed into a list prefix = [i[0:3] for i in sequences] suffix = [i[len(i)-3:] for i in sequences] #Now, all suffixes and prefixes are in lists as well #but what now? print(suffix) print(prefix) print(sequences) file.close

2条回答

网友

1楼 · 编辑于 2024-09-30 03:22:54

如果我理解正确，您想做的是连接sequences的不同元素，其中连接是字符串的开头与另一个字符串的结尾匹配。你知道吗

使用dict的一种方法是使用以下函数match_head_tail()：

def match_head_tail(items, length=3):
    result = {}
    for x in items:
        v = [y for y in items if y[:length] == x[-length:]]
        if v:
            result[x] = v
    return result

sequences = ['AAGTAAA', 'AAATGAT', 'AAAGTTT', 'TTTTCCC', 'AATTCGC', 'CGCTCCC']

print(match_head_tail(sequences))
# {'AAGTAAA': ['AAATGAT', 'AAAGTTT'], 'AAAGTTT': ['TTTTCCC'], 'AATTCGC': ['CGCTCCC']}

如果还想包含不匹配的序列，可以使用以下函数match_head_tail_all()：

def match_head_tail_all( items, length=3):
    return {x: [y for y in items if y[:length] == x[-length:]] for x in items}

sequences = ['AAGTAAA', 'AAATGAT', 'AAAGTTT', 'TTTTCCC', 'AATTCGC', 'CGCTCCC']

print(match_head_tail_all(sequences))
# {'AAGTAAA': ['AAATGAT', 'AAAGTTT'], 'AAATGAT': [], 'AAAGTTT': ['TTTTCCC'], 'TTTTCCC': [], 'AATTCGC': ['CGCTCCC'], 'CGCTCCC': []}

编辑1

如果您真的需要索引，请将以上内容与enumerate()结合起来得到它们，例如：

def match_head_tail_all_indexes( items, length=3):
    return {
        i: [j for j, y in enumerate(items) if y[:length] == x[-length:]]
        for i, x in enumerate(items)}


sequences = ['AAGTAAA', 'AAATGAT', 'AAAGTTT', 'TTTTCCC', 'AATTCGC', 'CGCTCCC']

print(match_head_tail_all_indexes(sequences))
# {0: [1, 2], 1: [], 2: [3], 3: [], 4: [5], 5: []}

编辑2

如果您的输入包含许多具有相同结尾的序列，您可能需要考虑实现一些缓存机制以提高计算效率（以牺牲内存效率为代价），例如：

def match_head_tail_cached(items, length=3, caching=True):
    result = {}
    if caching:
        cached = {}
    for x in items:
        if caching and x[-length:] in cached:
            v = cached[x[-length:]]
        else:
            v = [y for y in items if y[:length] == x[-length:]]    
        if v:
            result[x] = v
    return result


sequences = ['AAGTAAA', 'AAATGAT', 'AAAGTTT', 'TTTTCCC', 'AATTCGC', 'CGCTCCC']

print(match_head_tail_cached(sequences))
# {'AAGTAAA': ['AAATGAT', 'AAAGTTT'], 'AAAGTTT': ['TTTTCCC'], 'AATTCGC': ['CGCTCCC']}

编辑3

所有这些也只能通过list实现，例如：

def match_head_tail_list(items, length=3):
    result = []
    for x in items:
        v = [y for y in items if y[:length] == x[-length:]]
        if v:
            result.append([x, v])
    return result


sequences = ['AAGTAAA', 'AAATGAT', 'AAAGTTT', 'TTTTCCC', 'AATTCGC', 'CGCTCCC']

print(match_head_tail_list(sequences))
# [['AAGTAAA', ['AAATGAT', 'AAAGTTT']], ['AAAGTTT', ['TTTTCCC']], ['AATTCGC', ['CGCTCCC']]]

甚至更少的筑巢：

def match_head_tail_flat(items, length=3):
    result = []
    for x in items:
        for y in items:
            if y[:length] == x[-length:]:
                result.append([x, y])
    return result


sequences = ['AAGTAAA', 'AAATGAT', 'AAAGTTT', 'TTTTCCC', 'AATTCGC', 'CGCTCCC']

print(match_head_tail_flat(sequences))
# [['AAGTAAA', 'AAATGAT'], ['AAGTAAA', 'AAAGTTT'], ['AAAGTTT', 'TTTTCCC'], ['AATTCGC', 'CGCTCCC']]

网友

2楼 · 编辑于 2024-09-30 03:22:54

如果我正确理解了您的问题，那么此代码将在列表上枚举两次。它将第一个元素的最后3个字母与第二个元素的前3个字母进行比较，如果匹配，则打印元素的索引。如果这不是你想要的，请给出反馈/澄清。这是O（n^2），如果您进行初始传递并将索引存储在类似于字典的结构中，可能会加快速度。你知道吗


for index1, sequence1 in enumerate(sequences):
    for index2, sequence2 in enumerate(sequences):
        if index1 != index2:
            if sequence1[-3:] == sequence2[0:3]:
                print(sequence1[-3:], index1, sequence2[0:3], index2)

编辑1

编辑2

编辑3

相关问题更多 >

编程相关推荐

热门问题

热门文章