Pyspark使用另一列中的值替换Spark dataframe列中的字符串

1条回答

网友

1楼 · 发布于 2024-10-03 23:24:10

你也可以使用udf。在

当您需要使用另一列中的值修改数据帧条目时，可能会应用该解决方案：

from pyspark.sql.functions import udf
from pyspark.sql.types import StringType

pd_input = pd.DataFrame({'address': ['2.PA1234.la','10.PA125.la','2.PA156.ln'],
             'st':['1234','125','156']})

spark_df = sparkSession.createDataFrame(pd_input)


replace_udf = udf(lambda address, st: address.replace(st,'9999'), StringType())

spark_df.withColumn('adress_new',replace_udf(col('address'),col('st'))).show()

输出：

^{pr2}$

编程相关推荐

java我可以使用Hibernate连接不同的数据库并从表中导入数据吗？没有预定义的对象类
java为什么getBoundsInLocal获取错误的坐标？
java在处理并发哈希映射时必须使用锁
java将过滤的JTable数据导出到文本文件
从命令行编译java不使用库
Java使用方法和构造函数绘制图形
java理解优先级队列中的排序方法
尝试解密文件时，java CipherInputStream为空
在Java中将字符串解析为长字符串
java我想在raspberry pi重新启动时在crontabe中执行arecord命令

相关问题更多 >

编程相关推荐

热门问题

热门文章

Pyspark使用另一列中的值替换Spark dataframe列中的字符串

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >