我有一个spark数据框,包含两列“a”和“b”
例如,一项数据输入为:
{"firstname" : {"s":"john"},
"secondname":{"s":"cena"} }
我想通过连接名称来添加一列,因此条目为:
{"firstname" : {"s":"john"},
"secondname":{"s":"cena"},
"fullname" :
{"s" : "john cena"}
}
我曾经使用过UDF,但它对于大数据来说是一个低效的解决方案,并且充当了优化的黑盒。 是否有任何方法可以使用PySpark函数或SQL查询来实现结果
查找内联代码注释以获得答案解释
相关问题 更多 >
编程相关推荐