如何将dataframe的pyspark列中包含的unicode列表转换为float列表？

import ast from pyspark.sql.functions import udf values = [(u'['2','4','713',10),(u'['12','245']',20),(u'['101','12']',30)] df = sqlContext.createDataFrame(values,['list','A']) df.show() +-----------------+---+ | list| A| +-----------------+---+ |u'['2','4','713']| 10| | u' ['12','245']| 20| | u'['101','12',]| 30| +-----------------+---+ **How can I convert the above dataframe such that each element in the list is a float and is within a proper list** I tried the below one : def df_amp_conversion(df_modelamp): string_list_to_list = udf(lambda row: ast.literal_eval(str(row))) df_modelamp = df_modelamp.withColumn('float_list',string_list_to_list(col("list"))) df2 = amp_conversion(df)

2条回答

网友

1楼 · 编辑于 2024-10-02 10:20:00

那是因为你忘了打字

udf(lambda row: ast.literal_eval(str(row)), "array<integer>")

虽然这样做会更有效率：

^{pr2}$

网友

2楼 · 编辑于 2024-10-02 10:20:00

我可以在python3中创建真正的结果，只需稍微修改一下函数df_amp_conversion的定义。您没有返回df_modelamp的值！此代码适用于我：

import ast
from pyspark.sql.functions import udf, col
values = [(u"['2','4','713']",10),(u"['12','245']",20),(u"['101','12']",30)]

df = sqlContext.createDataFrame(values,['list','A'])


def df_amp_conversion(df_modelamp):
    string_list_to_list = udf(lambda row: ast.literal_eval(str(row)))
    df_modelamp  = df_modelamp.withColumn('float_list',string_list_to_list(col("list")))
    return df_modelamp

df2 = df_amp_conversion(df)
df2.show()

#    +       -+ -+     -+
#    |           list|  A| float_list|
#    +       -+ -+     -+
#    |['2','4','713']| 10|[2, 4, 713]|
#    |   ['12','245']| 20|  [12, 245]|
#    |   ['101','12']| 30|  [101, 12]|
#    +       -+ -+     -+

相关问题更多 >

编程相关推荐

热门问题

热门文章