我有一百万个按排序顺序排列的整数,我想找出最长的子序列,其中连续对之间的差相等。例如
1, 4, 5, 7, 8, 12
有一个子序列
^{pr2}$我天真的方法是贪婪的,只是检查从每个点可以扩展子序列的距离。这似乎每点花费O(n²)
时间。在
有没有更快的方法来解决这个问题?在
更新。我会尽快测试答案中给出的代码(谢谢)。但是很明显,使用n^2内存是行不通的。到目前为止,还没有以[random.randint(0,100000) for r in xrange(200000)]
作为输入终止的代码。在
计时。我在32位系统上用以下输入数据进行了测试。在
a= [random.randint(0,10000) for r in xrange(20000)]
a.sort()
为了能够测试Kluev的方法,我用
a= [random.randint(0,40000) for r in xrange(28000)]
a = list(set(a))
a.sort()
列一个大致长度的列表20000
。所有的时间都和pypy在一起
看来,如果ZelluX方法可以成为线性空间,它将是明显的赢家。在
更新:这里描述的第一个算法被Armin Rigo's second answer淘汰,它更加简单和高效。但这两种方法都有一个缺点。他们需要很多小时才能找到一百万个整数的结果。因此,我又尝试了两个变量(见本答案的后半部分),其中假设输入整数的范围是有限的。这样的限制允许更快的算法。我还试着优化阿明·里戈的代码。最后看我的基准测试结果。在
这是一个使用O(N)内存的算法的思想。时间复杂度为O(N2logn),但可以降低到O(N2)。在
算法使用以下数据结构:
prev
:指向子序列的前一个元素(可能不完整)的索引数组。在hash
:hashmap,key=difference between continued pairs in subsequence,value=2个其他hashmap。对于这些其他哈希映射:key=子序列的起始/结束索引,value=pair of(子序列长度,子序列的结束/开始索引)。在pq
:存储在prev
和hash
中的子序列的所有可能的“差异”值的优先级队列。在算法:
i-1
初始化{hash
和{pq
获取(并删除)最小的“差异”。从hash
获取相应的记录并扫描其中一个二级哈希映射。此时具有给定“差”的所有子序列都是完整的。如果二级哈希映射包含的子序列长度比目前发现的要好,则更新最佳结果。在prev
:对于在步骤2中找到的任何序列的每个元素,递减索引并更新hash
,可能还有{hash
时,我们可以执行以下操作之一:添加长度为1的新子序列,或将某些现有子序列增长1,或合并两个现有子序列。在pq
不为空时,从步骤2继续。在此算法每次更新
prev
O(N)个元素次。这些更新中的每一个都可能需要为pq
添加一个新的“差异”。如果我们对pq
使用简单的堆实现,这意味着O(N2logn)的时间复杂性。为了将其减少到O(N2),我们可以使用更高级的优先级队列实现。本页列出了一些可能性:Priority Queues。在请参见Ideone上相应的Python代码。此代码不允许列表中有重复的元素。解决这个问题是可能的,但无论如何,删除重复项(并分别找到重复项之外最长的子序列)将是一个很好的优化。在
和the same code after a little optimization。在这里,只要子序列长度乘以可能的子序列“差异”超过源列表范围,搜索就终止。在
阿明·里戈的代码很简单,效率很高。但在某些情况下,它会进行一些可以避免的额外计算。只要子序列长度乘以可能的子序列“差异”超过源列表范围,搜索就可能终止:
如果源数据(M)中的整数范围很小,则可以使用O(M2)时间和O(M)空间的简单算法:
^{pr2}$它类似于arminrigo的第一种方法,但是它没有使用任何动态数据结构。我想源数据没有重复项。并且(为了保持代码的简单性),我还假设最小输入值是非负的并且接近于零。在
如果我们使用位集数据结构和位操作来并行处理数据,那么前面的算法可能会得到改进。下面显示的代码将位集实现为内置的Python整数。它有相同的假设:无重复,最小输入值为非负接近于零。时间复杂度为O(M2*logl),其中L为最优子序列的长度,空间复杂度为O(M):
基准:
输入数据(大约100000个整数)是这样生成的:
对于最快的算法,我还使用了以下数据(大约1000000个整数):
所有结果均以秒为单位显示时间:
更新:我发现了一篇关于这个问题的论文,你可以下载它here。在
这是一个基于动态规划的解决方案。它需要O(n^2)时间复杂度和O(n^2)空间复杂度,并且不使用哈希。在
我们假设所有数字都按升序保存在数组
a
中,n
保存其长度。2D数组l[i][j]
定义以a[i]
和a[j]
结尾的最长等距子序列的长度,以及l[j][k]
=l[i][j]
+1 ifa[j]
-a[i]
=a[k]
-a[j]
(i<;j<;k)。在通过调整你的方法,我们可以在几乎不需要内存的情况下及时得到一个解决方案{}。这里
n
是给定输入序列中的项数,m
是范围,即最高的数字减去最低的数字。在调用A所有输入数字的序列(并使用预计算的
set()
在恒定时间内回答问题“这个数字在A中吗?”)。称d为我们要寻找的子序列的步骤(该子序列的两个数字之间的差)。对于每个可能的d值,对所有输入的数字进行以下线性扫描:对于从A开始的每个数字n,如果还没有看到该数字,则在A中从n开始,用步骤d向前看序列的长度。然后将该序列中的所有项目标记为已经看到的,这样我们就避免再次从它们中搜索,因此,对于同一个d,复杂度仅为O(n)
更新:
如果您只对相对较小的d值感兴趣,那么这个解决方案就足够了;例如,如果为
d <= 1000
获得最佳结果就足够了。然后复杂度下降到O(n*1000)
。这使算法近似,但实际上可用于n=1000000
。(用CPython测量400-500秒,用PyPy测量80-90秒,随机数子集在0到10000'000之间。)如果您仍然想搜索整个范围,并且常见的情况是存在长序列,那么一个显著的改进是一旦d太大而无法找到更长的序列,就停止搜索。
相关问题 更多 >
编程相关推荐