Pyspark错误:UDF出现py4j.Py4JException错误:方法__getnewargs__([])不存在

2024-10-01 11:39:23 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在尝试解决以下错误(我使用databricks平台和spark2.0)

tweets_cleaned.createOrReplaceTempView("tweets_cleanedSQL")
def Occ(keyword):
  occurences = spark.sql("SELECT * \
                                FROM tweets_cleanedSQL \
                                WHERE LOWER(text) LIKE '%" + keyword + "%' \
                            ")
  return occurences.count()


occurences_udf = udf(Occ)

如果运行此代码,将收到以下错误:

py4j.Py4JException:Methodgetnewargs([])不存在==>仅当尝试定义udf时才会发生错误。在


Tags: sqldef错误平台selectkeywordtweetsspark
1条回答
网友
1楼 · 发布于 2024-10-01 11:39:23

UDF函数将常规函数转换为应用于输入列的任何元素的函数。您不能让这个函数调用spark函数(在本例中,您正在调用火花.sql这将反过来需要创建工人等,这是不支持的。在

相关问题 更多 >