擅长:python、mysql、java
<p>您可以创建自己的自定义UDF,并可以在Spark应用程序代码中使用它。只有在可用的Spark本机函数做不到的情况下才使用自定义UDF。你知道吗</p>
<p>我不知道有什么进展_数据.py它需要什么样的投入,你期望从中得到什么。
如果你想让它对不同的应用程序代码可用。您可以执行以下操作:</p>
<p>您可以在python中创建一个类,并在其中使用一个函数进行处理,然后将其添加到spark应用程序代码中。你知道吗</p>
<pre><code>class MyClass:
def __init__(self, args):
…
def MyFunction(self):
spark.sparkContext.addPyFile('/py file location/somecode.py')
</code></pre>
<h2>在pyspark应用程序代码中导入类</h2>
<pre><code>from somecode import MyClass
</code></pre>
<h2>创建一个对象来访问类及其函数</h2>
<pre><code>myobject = MyClass()
</code></pre>
<p>现在可以访问类函数来发送和接收参数。你知道吗</p>