为什么复制无序列表要慢得多？

3条回答

网友

1楼 · 编辑于 2024-05-17 04:03:21

正如其他人所解释的，这不仅是复制引用，而且还增加了对象内部的引用计数，因此对象被访问，缓存发挥了作用。

在这里我只想增加更多的实验。与其说是shuffled，不如说是unshuffled（访问一个元素可能会错过缓存，但会将以下元素放入缓存，这样它们就会被命中）。但关于重复元素，同一元素的后续访问可能会命中缓存，因为该元素仍在缓存中。

测试正常范围：

>>> from timeit import timeit
>>> a = range(10**7)
>>> [timeit(lambda: list(a), number=100) for _ in range(3)]
[5.1915339142808925, 5.1436351868889645, 5.18055115701749]

相同大小但只有一个元素反复出现的列表速度更快，因为它总是命中缓存：

>>> a = [0] * 10**7
>>> [timeit(lambda: list(a), number=100) for _ in range(3)]
[4.125743135926939, 4.128927210087596, 4.0941229388550795]

不管是什么数字：

>>> a = [1234567] * 10**7
>>> [timeit(lambda: list(a), number=100) for _ in range(3)]
[4.124106479141709, 4.156590225249886, 4.219242600790949]

有趣的是，当我重复同样的两个或四个元素时，它会变得更快：

>>> a = [0, 1] * (10**7 / 2)
>>> [timeit(lambda: list(a), number=100) for _ in range(3)]
[3.130586101607932, 3.1001001764957294, 3.1318465707127814]

>>> a = [0, 1, 2, 3] * (10**7 / 4)
>>> [timeit(lambda: list(a), number=100) for _ in range(3)]
[3.096105435911994, 3.127148431279352, 3.132872673690855]

我想有些东西不喜欢同一个计数器一直增加。可能是一些pipeline stall，因为每次增加都要等待上一次增加的结果，但这是一个疯狂的猜测。

不管怎样，对更多的重复元素尝试这个方法：

from timeit import timeit
for e in range(26):
    n = 2**e
    a = range(n) * (2**25 / n)
    times = [timeit(lambda: list(a), number=20) for _ in range(3)]
    print '%8d ' % n, '  '.join('%.3f' % t for t in times), ' => ', sum(times) / 3

输出（第一列是不同元素的数量，对于每个I测试三次，然后取平均值）：

       1  2.871  2.828  2.835  =>  2.84446732686
       2  2.144  2.097  2.157  =>  2.13275338734
       4  2.129  2.297  2.247  =>  2.22436720645
       8  2.151  2.174  2.170  =>  2.16477771575
      16  2.164  2.159  2.167  =>  2.16328197911
      32  2.102  2.117  2.154  =>  2.12437970598
      64  2.145  2.133  2.126  =>  2.13462250728
     128  2.135  2.122  2.137  =>  2.13145065221
     256  2.136  2.124  2.140  =>  2.13336283943
     512  2.140  2.188  2.179  =>  2.1688431668
    1024  2.162  2.158  2.167  =>  2.16208440826
    2048  2.207  2.176  2.213  =>  2.19829998424
    4096  2.180  2.196  2.202  =>  2.19291917834
    8192  2.173  2.215  2.188  =>  2.19207065277
   16384  2.258  2.232  2.249  =>  2.24609975704
   32768  2.262  2.251  2.274  =>  2.26239771771
   65536  2.298  2.264  2.246  =>  2.26917420394
  131072  2.285  2.266  2.313  =>  2.28767871168
  262144  2.351  2.333  2.366  =>  2.35030805124
  524288  2.932  2.816  2.834  =>  2.86047313113
 1048576  3.312  3.343  3.326  =>  3.32721167007
 2097152  3.461  3.451  3.547  =>  3.48622758473
 4194304  3.479  3.503  3.547  =>  3.50964316455
 8388608  3.733  3.496  3.532  =>  3.58716466865
16777216  3.583  3.522  3.569  =>  3.55790996695
33554432  3.550  3.556  3.512  =>  3.53952594744

所以从单个元素的2.8秒下降到2.2秒，2，4，8，16。。。不同的元素和停留在大约2.2秒，直到数十万。我认为这使用了我的二级缓存（4×256kb，我有一个i7-6700）。

再过几步，时间就增加到3.5秒。我认为这将使用我的二级缓存和三级缓存（8MB）的混合，直到“耗尽”为止。

最后它会停留在3.5秒左右，我想是因为我的缓存不再有助于处理重复的元素。

网友
2楼 · 编辑于 2024-05-17 04:03:21

当您洗牌列表项时，它们的引用区域性变差，导致缓存性能变差。
您可能认为复制列表只是复制引用，而不是对象，因此它们在堆中的位置不重要。但是，复制仍然需要访问每个对象以修改refcount。

网友
3楼 · 编辑于 2024-05-17 04:03:21

有趣的是，它取决于整数的创建顺序。例如，使用random.randint而不是shuffle创建一个随机序列：

from timeit import timeit
import random

a = [random.randint(0, 10**6) for _ in range(10**6)]
for _ in range(5):
    print(timeit(lambda: list(a), number=10))

这与复制list(range(10**6))（第一个快速示例）一样快。

然而，当你洗牌-然后你的整数不再是他们最初创建的顺序，这就是为什么它慢。

快速的间奏曲：

所有Python对象都在堆中，因此每个对象都是一个指针。
复制列表是一个浅操作。
然而，Python使用引用计数，所以当一个对象被放入一个新容器时，它的引用计数必须递增（^{} in ^{}），所以Python确实需要转到对象所在的位置。它不能只是复制引用。

因此，当你复制你的列表时，你会得到列表中的每一项，并将其“原样”放入新列表中。当你的下一个项目在当前项目之后不久创建时，很有可能（不保证！）它被保存在堆的旁边。

假设当您的计算机在缓存中加载一个项时，它也会加载下一个内存项（缓存位置）。然后，您的计算机可以对同一缓存中的x+1项执行引用计数递增！

对于无序序列，它仍然加载下一个内存项，但这些不是列表中的下一个。因此，如果不“真正”查找下一项，它就无法执行引用计数增量。

TL；DR:实际速度取决于复制之前发生的事情：这些项是按什么顺序创建的，列表中的项是按什么顺序创建的。

您可以通过查看^{}来验证这一点：

CPython implementation detail: This is the address of the object in memory.

a = list(range(10**6, 10**6+100))
for item in a:
    print(id(item))

只是为了展示一个简短的摘录：

1496489995888
1496489995920  # +32
1496489995952  # +32
1496489995984  # +32
1496489996016  # +32
1496489996048  # +32
1496489996080  # +32
1496489996112
1496489996144
1496489996176
1496489996208
1496489996240
1496507297840
1496507297872
1496507297904
1496507297936
1496507297968
1496507298000
1496507298032
1496507298064
1496507298096
1496507298128
1496507298160
1496507298192

所以这些对象实际上是“堆上的相邻对象”。使用shuffle它们不是：

import random
a = list(range(10**6, 100+10**6))
random.shuffle(a)
last = None
for item in a:
    if last is not None:
        print('diff', id(item) - id(last))
    last = item

这表明它们在记忆中并不是真的相邻的：

diff 736
diff -64
diff -17291008
diff -128
diff 288
diff -224
diff 17292032
diff -1312
diff 1088
diff -17292384
diff 17291072
diff 608
diff -17290848
diff 17289856
diff 928
diff -672
diff 864
diff -17290816
diff -128
diff -96
diff 17291552
diff -192
diff 96
diff -17291904
diff 17291680
diff -1152
diff 896
diff -17290528
diff 17290816
diff -992
diff 448

重要提示：

我自己也没想过。大多数信息可以在blogpost of Ricky Stewart中找到。

这个答案基于Python的“官方”CPython实现。其他实现（Jython、PyPy、IronPython，…）中的细节可能不同。谢谢@JórgWMittagfor pointing this out。

相关问题更多 >

编程相关推荐

热门问题

热门文章