使用UDF处理多个列时堆栈溢出

# df is a DataFrame def lowerCase(string): return string.strip().lower() lowerCaseUDF = udf(lowerCase, StringType()) for (columnName, kind) in df.dtypes: if(kind == "string"): df = df.withColumn(columnName, lowerCaseUDF(df[columnName])) df.select("Tipo_unidad").distinct().show()

1条回答

网友

1楼 · 发布于 2024-10-01 17:41:17

试试这样的方法：

from pyspark.sql.functions import col, lower, trim

exprs = [
    lower(trim(col(c))).alias(c) if t == "string" else col(c) 
    for (c, t) in df.dtypes
]

df.select(*exprs)

与当前解决方案相比，此方法有两个主要优势：

它只需要作为单个投影（没有最有可能导致这种情况的增长血统）而不是每个字符串列的投影。在
它只直接操作内部表示而不向Python（BatchPythonProcessing）传递数据。在

编程相关推荐

C++／爪哇／C图像处理库
由于类org的许多实例而导致java内存泄漏。jboss。vfs。spi。JavaZipFileSystem
java在Android中使用CustomMultiPartEntity取消上传文件
java根据另一个JCombobox填充JCombobox值
安卓 java，如何将Unicode字符更改为普通字符？
java每次出现“CCTGG”时，我为DNA序列创建的字符串生成器都会停止
java Android NDK应用程序抛出错误未满足链接错误
用Java实现mp3音频分解
如何在源java中使用weka 3.7.12中保存的svm（wlsvm）模型类
jsf Spring@Autowired（required=true）为空

相关问题更多 >

编程相关推荐

热门问题

热门文章

使用UDF处理多个列时堆栈溢出

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >