如何在pyspark中驱动基于panda udf的专栏。我写的udf如下:
from pyspark.sql.functions import pandas_udf, PandasUDFType
@pandas_udf("in_type string, in_var string, in_numer int", PandasUDFType.GROUPED_MAP)
def getSplitOP(in_data):
if in_data is None or len(in_data) < 1:
return None
#Input/variable.12-2017
splt=in_data.split("/",1)
in_type=splt[0]
splt_1=splt[1].split(".",1)
in_var = splt_1[0]
splt_2=splt_1[1].split("-",1)
in_numer=int(splt_2[0])
return (in_type, in_var, in_numer)
#Expected output: ("input", "variable", 12)
df = df.withColumn("splt_col", getSplitOP(df.In_data))
有人能帮我确认一下,上面的代码有什么问题,为什么不起作用。在
目前没有回答
相关问题 更多 >
编程相关推荐