在pysp中仅从Spark DF中选择数值/字符串列名称

2024-05-19 01:13:25 发布

您现在位置:Python中文网/ 问答频道 /正文

我在pyspark(2.1.0)中有一个SparkDataFrame,我希望只获取数值列或字符串列的名称。

例如,这是我的DF的模式:

root
 |-- Gender: string (nullable = true)
 |-- SeniorCitizen: string (nullable = true)
 |-- MonthlyCharges: double (nullable = true)
 |-- TotalCharges: double (nullable = true)
 |-- Churn: string (nullable = true)

这就是我需要的:

num_cols = [MonthlyCharges, TotalCharges]
str_cols = [Gender, SeniorCitizen, Churn]

我怎么能做到?谢谢您!


Tags: 字符串名称truestringgenderpyspark数值double

热门问题