擅长:python、mysql、java
<p>只要传递给<code>__init__</code>(<code>puid</code>,<code>pogid</code>,<code>bucketId</code>,<code>dt</code>,<code>at</code>)的所有参数都可以序列化,就不需要任何额外的步骤。如果您遇到任何问题,很可能意味着您没有在集群上正确地分发模块。在</p>
<p>虽然PySpark自动分发闭包中引用的变量和函数,但是分发模块、库和类是您的责任。对于simples类,创建一个单独的模块并通过<code>SparkContext.addPyFile</code>传递它就足够了:</p>
<pre><code># https://www.python.org/dev/peps/pep-0008/#class-names
from some_module import Bean
sc.addPyFile("some_module.py")
</code></pre>