如何有效地遍历一个大字符串并记录每个3个字母的子字符串的索引？

2条回答

网友

1楼 · 编辑于 2024-06-14 06:42:14

可以将长字符串拆分为3个字母的子字符串：

string='GACTCGTAGCTAGCT'
substrings=[string[3*x:3*x+3] for x in range(int(len(string)/3))]

substrings将是：

['GAC', 'TCG', 'TAG', 'CTA', 'GCT']

将这些标记添加到另一个列表：

indices=[x for x in range(int(len(string)/3))]

这只会产生：

[0, 1, 2, 3, 4]

子字符串列表中的第n个元素将对应于索引列表中的第n个元素

有关如何将文件放入字符串变量，请参见： How to read a text file into a string variable and strip newlines?

网友

2楼 · 编辑于 2024-06-14 06:42:14

您的示例输出表明，每个子序列只需要一个索引，但您的描述暗示您可能需要所有索引

下面是一个函数，该函数将为存在的子序列（给定长度）构建一个包含所有索引的字典：

from collections import defaultdict
def sequenceDict(seq,count):
    result = defaultdict(list)
    for i,subseq in enumerate(zip(*(seq[i:] for i in range(count)))):
        result["".join(subseq)].append(i)
    return result

r = sequenceDict('GACTCGTAGCTAGCTG',3)
print(r)

# {'GAC': [0], 'ACT': [1], 'CTC': [2], 'TCG': [3], 'CGT': [4], 'GTA': [5], 'TAG': [6, 10], 'AGC': [7, 11], 'GCT': [8, 12], 'CTA': [9], 'CTG': [13]})

如果您确实只需要每个3个字母子序列的第一个索引，则使用单个词典理解可以更快地获取词典：

from itertools import product
{ ss:sequence.index(ss) for p in product(*["ACGT"]*3)for ss in ["".join(p)] if ss in sequence}

我对2.5亿个字母的随机序列进行了性能测试，单索引字典可以在几微秒内获得。获取所有索引需要一分钟多一点（使用上述函数）：

import time

size = 250_000_000
print("loading sequence...",size)
start = time.time()
import random
sequence = "".join(random.choice("ACGT") for _ in range(size))
print("sequence ready",time.time()-start)


start = time.time()
from itertools import product
seqDict = { ss:sequence.index(ss) for p in product(*["ACGT"]*3)for ss in ["".join(p)] if ss in sequence}
print("\n1st index",time.time()-start)

start = time.time()
r = sequenceDict(sequence,3)
print("\nall indexes",time.time()-start)

输出：

loading sequence... 250000000
sequence ready 193.82172107696533

1st index 0.000141143798828125

all indexes 71.74848103523254

考虑到加载序列的时间比构建索引的时间要长得多，您可以放弃存储索引字典，每次都从源数据重新构建它（您似乎仍然需要为您的过程加载源数据）

您还可以存储计数字典，并根据需要提取索引：

此函数用于获取每个子序列的出现次数：

from collections import Counter
def countSubSeqs(seq,size):
    return Counter("".join(s) for s in zip(*(seq[i:] for i in range(size))))

它与sequenceDict函数的运行时间大致相同，但生成的字典要小得多

要获取特定子序列（包括重叠位置）的索引，可以使用以下方法：

subSeq  = "ACT"
indexes = [ i for i in range(len(sequence)) if sequence[i:i+3]==subSeq ]

如果您不需要立即为所有子序列创建所有索引，那么您可以相应地构造代码，只在需要时获取索引（并可能将它们存储在字典中以便查询和重用）

相关问题更多 >

编程相关推荐

热门问题

热门文章