如何在pyspark数据帧中将字符串类型的列转换为int形式？

网友

1楼 · 编辑于 2024-10-10 22:36:54

另一种方法是，如果有多个字段需要修改，则使用StructField。

例如：

from pyspark.sql.types import StructField,IntegerType, StructType,StringType
newDF=[StructField('CLICK_FLG',IntegerType(),True),
       StructField('OPEN_FLG',IntegerType(),True),
       StructField('I1_GNDR_CODE',StringType(),True),
       StructField('TRW_INCOME_CD_V4',StringType(),True),
       StructField('ASIAN_CD',IntegerType(),True),
       StructField('I1_INDIV_HHLD_STATUS_CODE',IntegerType(),True)
       ]
finalStruct=StructType(fields=newDF)
df=spark.read.csv('ctor.csv',schema=finalStruct)

输出：

以前

root
 |-- CLICK_FLG: string (nullable = true)
 |-- OPEN_FLG: string (nullable = true)
 |-- I1_GNDR_CODE: string (nullable = true)
 |-- TRW_INCOME_CD_V4: string (nullable = true)
 |-- ASIAN_CD: integer (nullable = true)
 |-- I1_INDIV_HHLD_STATUS_CODE: string (nullable = true)

之后：

root
 |-- CLICK_FLG: integer (nullable = true)
 |-- OPEN_FLG: integer (nullable = true)
 |-- I1_GNDR_CODE: string (nullable = true)
 |-- TRW_INCOME_CD_V4: string (nullable = true)
 |-- ASIAN_CD: integer (nullable = true)
 |-- I1_INDIV_HHLD_STATUS_CODE: integer (nullable = true)

这是一个稍长的转换过程，但其优点是可以完成所有必需的字段。

需要注意的是，如果只为必需字段分配了数据类型，那么结果数据帧将只包含那些已更改的字段。

网友

2楼 · 编辑于 2024-10-10 22:36:54

在用0替换NaN之后，可以使用cast（作为int）

data_df = df.withColumn("Plays", df.call_time.cast('float'))

网友

3楼 · 编辑于 2024-10-10 22:36:54

from pyspark.sql.types import IntegerType
data_df = data_df.withColumn("Plays", data_df["Plays"].cast(IntegerType()))
data_df = data_df.withColumn("drafts", data_df["drafts"].cast(IntegerType()))

可以为每列运行循环，但这是将字符串列转换为整数的最简单方法。

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何在pyspark数据帧中将字符串类型的列转换为int形式？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >