目前我在一个文件中有一个很长的序列,我希望将这个序列拆分成更小的子序列,但是我希望每个子序列都与前一个序列有一个重叠,并将它们放入一个列表中。我的意思是:
(对这个神秘的序列表示歉意,这些都在1行上)
file1.txt
abcdefessdfekgheithrfkopeifhghtryrhfbcvdfersdwtiyuyrterdhcbgjherytyekdnfiwytowihfiwoeirehjiwoqpft
list1 = ["abcdefessdfekgheithrfkopeifhght", "fhghtryrhfbcvdfersdwtiyuyrterdhc", "erdhcbgjherytyekdnfiwyt", "nfiwytowihfiwoeirehjiwoqpft"]
目前,我可以使用以下代码将每个序列拆分为较小的saubsequence,而无需重叠:
^{pr2}$在上面的代码中,n指定将列表拆分为多少个子序列。在
我在想抓住每个子序列的末尾,然后通过硬编码将它们连接到列表中元素的末尾。。。但这将是低效和困难的。有没有一个简单的方法可以做到这一点?在
实际上,我需要重叠大约100个字符。在
谢谢各位
这样做可能会稍微有点效率
^{pr2}$如果要将序列
seq
拆分为长度为length
的子序列,每个子序列及其后续序列之间共享overlap
个字符/元素:然后在原始数据上进行测试:
^{pr2}$相关问题 更多 >
编程相关推荐