为什么某些实现在Python中运行缓慢？

1条回答

网友

1楼 · 发布于 2024-07-05 09:45:24

好吧，让我们从头说起。CPython将可见文本编译成一种称为字节码的东西，这是一种更易于虚拟机（即解释器）理解的表示。你知道吗

由于这种开销，palindrome和palindrome2函数都比palindrome1慢。CPython中有一个整洁的模块叫做dis。如果在编译函数上使用它，它将显示其内部表示形式。所以让我们这样做：

>>> dis.dis(palindrome)
  2           0 LOAD_CLOSURE             0 (p)
              3 BUILD_TUPLE              1
              6 LOAD_CONST               1 (<code object p at 0x01B95110, file "<stdin>", line 2>)
              9 LOAD_CONST               2 ('palindrome.<locals>.p')
             12 MAKE_CLOSURE             0
             15 STORE_DEREF              0 (p)

  9          18 LOAD_DEREF               0 (p)
             21 LOAD_FAST                0 (str_in)
             24 LOAD_ATTR                0 (replace)
             27 LOAD_CONST               3 (' ')
             30 LOAD_CONST               4 ('')
             33 CALL_FUNCTION            2 (2 positional, 0 keyword pair)
             36 LOAD_ATTR                1 (lower)
             39 CALL_FUNCTION            0 (0 positional, 0 keyword pair)
             42 LOAD_CONST               5 (0)
             45 LOAD_GLOBAL              2 (len)
             48 LOAD_FAST                0 (str_in)
             51 CALL_FUNCTION            1 (1 positional, 0 keyword pair)
             54 LOAD_CONST               6 (1)
             57 BINARY_SUBTRACT
             58 CALL_FUNCTION            3 (3 positional, 0 keyword pair)
             61 RETURN_VALUE

现在让我们将其与palindrome1函数进行比较：

>>> dis.dis(palindrome1)
  2           0 LOAD_FAST                0 (s)
              3 LOAD_ATTR                0 (replace)
              6 LOAD_CONST               1 (' ')
              9 LOAD_CONST               2 ('')
             12 CALL_FUNCTION            2 (2 positional, 0 keyword pair)
             15 LOAD_ATTR                1 (lower)
             18 CALL_FUNCTION            0 (0 positional, 0 keyword pair)
             21 STORE_FAST               1 (st)

  3          24 LOAD_FAST                1 (st)
             27 LOAD_FAST                1 (st)
             30 LOAD_CONST               0 (None)
             33 LOAD_CONST               0 (None)
             36 LOAD_CONST               4 (-1)
             39 BUILD_SLICE              3
             42 BINARY_SUBSCR
             43 COMPARE_OP               2 (==)
             46 RETURN_VALUE

所以这就是CPython或多或少看到的（实际上它们被编码成二进制形式，这在目前是不相关的）。然后虚拟机遍历这些行并逐个执行它们。你知道吗

所以第一个显而易见的事情是：行数越多==执行时间越长。这是因为必须解释每一行，并且必须执行适当的C代码。由于循环和递归调用，除了palindrome1之外，这两个函数中都执行了很多行。所以本质上就像你试着跑几圈，但是Python说“不，不，不，你必须用20公斤的体重跑”。圈数越多（即要执行的字节码越多），速度就越慢。一般来说，这种性能下降在CPython中应该是线性的，但是如果不阅读CPython的代码，谁知道呢？我听说一种叫做inline caching的技术应该在CPython中实现，这会对性能产生很大影响。我不知道是不是做了。你知道吗

另一件事是Python中的调用非常昂贵。有ABI说明了如何在低级别执行调用（即将寄存器推到堆栈上并执行跳转）。C/C++遵循它。现在Python做的远不止这些。创建了一些帧（可以分析这些帧，例如在发生异常时），有一个最大递归检查等等。所有这些都会导致性能损失。你知道吗

所以palindrome函数做了很多调用。递归在Python中效率很低。特别是这就是palindrome2比palindrome1快的原因。你知道吗

另一件事是palindrome1有[::-1]转换成BUILD_SLICE调用，这是用C实现的。因此，即使它做的比需要的更多（没有理由创建字符串的另一个副本），它仍然比其他函数快，因为中间层（即字节码）是最小的。编译器不需要在字节码解释上浪费时间。你知道吗

另一个重要的事情是，在Python中创建的每个对象都必须被垃圾收集。而且由于这些对象通常比纯C对象大（例如由于引用计数器），所以这需要更多的时间。啊，顺便说一下，增加和减少参考计数器也需要时间。还有一个叫做GIL（Global Interpreter Lock）的东西，它在每个命令上获取并释放一个锁，这样字节码是线程安全的。即使对于单线程应用程序来说这是完全不必要的。但是Python不知道您在某个时候不会运行线程，它每次都必须这样做。这一切都使你不必担心大多数C/C++程序员必须处理的棘手问题。：）

现在皮皮是另一个故事。它内部有一个整洁的东西叫做JIT=Just-In-Time编译器。它所做的就是获取任何Python字节码，并动态地将其转换为机器代码，然后重用。因此，对函数的初始调用有这个编译开销，但仍然更快。最终根本就没有字节码，所有函数都纯粹在CPU上运行。然而，这并不意味着PyPy与用C编写的函数一样快（例如[::-1]）。只是因为有很多优化是在C级完成的，我们不知道如何在PyPy或任何其他Python解释器中实现。这是由于语言的性质-它是动态的。是否真的不可能是另一回事，一点也不明显，但目前我们还不知道该怎么做。你知道吗

<太长了，读不下去了；DR；构建函数（或者更一般地，在Python中运行的C代码）总是至少与等效纯Python代码一样快，而且在大多数情况下，速度更快

相关问题更多 >

编程相关推荐

热门问题

热门文章