列和与行和：为什么我看不到使用NumPy的区别？问题的回答

列和与行和：为什么我看不到使用NumPy的区别？

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我用numpy测试了这个<a href="http://www.pytables.org/docs/LargeDataAnalysis.pdf" rel="nofollow noreferrer">talk</a>[pytables]中演示的一个例子（第20/57页）。在 结果表明，<code>a[:,1].sum()</code>只需9.3ms，而{<cd2>}只需72 us。在 我试图复制它，但没有成功。我量错了吗？或者从2010年开始，纽比的情况发生了变化？在 <pre><code>$ python2 -m timeit -n1000 --setup \ 'import numpy as np; a = np.random.randn(4000,4000);' 'a[:,1].sum()' 1000 loops, best of 3: 16.5 usec per loop $ python2 -m timeit -n1000 --setup \ 'import numpy as np; a = np.random.randn(4000,4000);' 'a[1,:].sum()' 1000 loops, best of 3: 13.8 usec per loop $ python2 --version Python 2.7.7 $ python2 -c 'import numpy; print numpy.version.version' 1.8.1 </code></pre> 虽然我可以衡量第二个版本的好处（因为numpy使用C风格的行排序，所以应该更少的缓存未命中），但我看不出pytables贡献者所说的那种巨大差异。在 另外，在使用列V行求和时，似乎看不到更多的缓存未命中。在 <hr/> 编辑 <ul> <li>到目前为止，我的洞察力是我用错了<code>timeit</code>模块。使用同一个数组（或数组的行/列）重复运行几乎肯定会被缓存（我有一级数据缓存的<code>32KiB</code>，因此其中有一行很适合：<code>4000 * 4 byte = 15k < 32k</code>）。</li> <li>使用@alim的<a href="https://stackoverflow.com/a/24738454/543411">answer</a>中的脚本和一个单循环（<code>nloop=1</code>）和十次试验<code>nrep=10</code>，并改变我测量的随机数组（<code>n x n</code>）的大小 ^{pr2}$ *<code>n=10k</code>及更高版本不再适合L1d缓存。</li> </ul> 我仍然不确定是否能找到原因，因为<code>perf</code>显示了与更快的行和相同的缓存未命中率（有时甚至更高）。在 <h2><code>Perf</code>数据：</h2> <code>nloop = 2</code>和<code>nrep=2</code>，所以我希望一些数据仍在缓存中。。。第二轮。在 <h3>行和<code>n=10k</code></h3> <pre><code> perf stat -B -e cache-references,cache-misses,L1-dcache-loads,L1-dcache-load-misses,L1-dcache-stores,L1-dcache-store-misses,L1-dcache-prefetches,cycles,instructions,branches,faults,migrations ./answer1.py 2>&1 | sed 's/^/ /g' row sum: 103.593 us Performance counter stats for './answer1.py': 25850670 cache-references [30.04%] 1321945 cache-misses # 5.114 % of all cache refs [20.04%] 5706371393 L1-dcache-loads [20.00%] 11733777 L1-dcache-load-misses # 0.21% of all L1-dcache hits [19.97%] 2401264190 L1-dcache-stores [20.04%] 131964213 L1-dcache-store-misses [20.03%] 2007640 L1-dcache-prefetches [20.04%] 21894150686 cycles [20.02%] 24582770606 instructions # 1.12 insns per cycle [30.06%] 3534308182 branches [30.01%] 3767 faults 6 migrations 7.331092823 seconds time elapsed </code></pre> <h3>列和<code>n=10k</code></h3> <pre><code> perf stat -B -e cache-references,cache-misses,L1-dcache-loads,L1-dcache-load-misses,L1-dcache-stores,L1-dcache-store-misses,L1-dcache-prefetches,cycles,instructions,branches,faults,migrations ./answer1.py 2>&1 | sed 's/^/ /g' column sum: 377.059 us Performance counter stats for './answer1.py': 26673628 cache-references [30.02%] 1409989 cache-misses # 5.286 % of all cache refs [20.07%] 5676222625 L1-dcache-loads [20.06%] 11050999 L1-dcache-load-misses # 0.19% of all L1-dcache hits [19.99%] 2405281776 L1-dcache-stores [20.01%] 126425747 L1-dcache-store-misses [20.02%] 2128076 L1-dcache-prefetches [20.04%] 21876671763 cycles [20.00%] 24607897857 instructions # 1.12 insns per cycle [30.00%] 3536753654 branches [29.98%] 3763 faults 9 migrations 7.327833360 seconds time elapsed </code></pre> <hr/> 编辑2 我想我已经了解了一些方面，但是这个问题我想还没有得到回答。目前，我认为这个求和示例根本没有揭示任何关于CPU缓存的信息。为了消除numpy/python的不确定性，我尝试在C中使用<code>perf</code>进行求和，结果如下所示。在

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

我看不出你的复制尝试有什么错，但请记住，这些幻灯片都是2010年的，从那时起numpy已经发生了很大的变化。根据<a href="https://github.com/numpy/numpy/releases" rel="nofollow">dates of numpy releases</a>，我猜弗朗西斯可能在用v1.5。在 使用此脚本对第v行列和进行基准测试： <pre><code>#!python import numpy as np import timeit print "numpy version == " + str(np.__version__) setup = "import numpy as np; a = np.random.randn(4000, 4000)" rsum = "a[1, :].sum()" csum = "a[:, 1].sum()" nloop = 1000 nrep = 3 print "row sum:\t%.3f us" % ( min(timeit.repeat(rsum, setup, repeat=nrep, number=nloop)) / nloop * 1E6) print "column sum:\t%.3f us" % ( min(timeit.repeat(csum, setup, repeat=nrep, number=nloop)) / nloop * 1E6) </code></pre> 我检测到numpy v1.5的列和速度下降了大约50%： ^{pr2}$ 相比之下，v1.8.1版本的速度下降了30%，您使用的是： <pre><code>$ python sum_benchmark.py numpy version == 1.8.1 row sum: 12.108 us column sum: 15.768 us </code></pre> 有趣的是，在最近的numpy版本中，这两种类型的缩减实际上都有点慢。我必须深入研究numpy的源代码去理解为什么会这样。在 <h2>更新</h2> <ul> <li>我在2.0GHz的四核i7-2630qmcpu上运行ubuntu14.04（kernelv3.13.0-30）。两个版本的numpy都是pip安装的，并使用GCC-4.8.1进行编译。在</li> <li>我意识到我最初的基准测试脚本并不是完全自解释的-您需要将总时间除以循环数（1000）才能得到每次调用的时间。在</li> <li>它也是<a href="https://docs.python.org/2/library/timeit.html#python-interface" rel="nofollow">probably makes more sense to take the minimum across repeats rather than the average</a>，因为这更可能代表执行时间的下限（在这个下限上，您将得到由于后台进程等原因而产生的变化）。在</li> </ul> 我已经相应地更新了我的脚本和上面的结果 我们还可以通过为每个调用创建一个全新的随机数组来消除跨调用缓存的任何效果（临时局部性）——只需将<code>nloop</code>设置为1，将<code>nrep</code>设置为一个相当小的数字（除非您真的很喜欢看油漆干燥），比如10。在 在4000x4000阵列上的<code>nloop=1</code>，<code>nreps=10</code>： <pre><code>numpy version == 1.5.0 row sum: 47.922 us column sum: 103.235 us numpy version == 1.8.1 row sum: 66.996 us column sum: 125.885 us </code></pre> 这有点像，但我仍然无法真正复制弗朗西斯的幻灯片所显示的巨大效果。也许这并不令人惊讶，但是-效果可能非常依赖于编译器、体系结构和/或内核。在

列和与行和：为什么我看不到使用NumPy的区别？

1 个回答

相关Python问题