基于CSV的Spark数据帧PySpark列名

cases = spark.read.load("/home/tool/Desktop/database/TEST/archive/Case.csv",format="csv", sep=",", inferSchema="true", header="true") cases = cases.select('province','city','infection_case','confirmed') cases \ .write \ .mode('overwrite') \ .option('header', 'true') \ .csv('8.csv')

3条回答

网友

1楼 · 编辑于 2024-06-01 07:06:34


# Define K,V pair in form of (old_name, new_name). Then 
# By using withColumnRenamed update all required columns

schema = {
        'province':'any_province__name',
        'city':'any_city__name',     
        'infection_case':'any_infection_case__name',
        'confirmed':'any_confirmed__name' 
      }

def rename_column(df=None,schema=None):
    for columns in df.columns:
        df = df.withColumnRenamed(columns,schema[columns])
    return df

df_final = rename_column(df=df,schema=schema)

网友

2楼 · 编辑于 2024-06-01 07:06:34

最好的解决方案是使用^{}方法

for line in open("path/to/file.csv"):
    old_name, new_name = line.strip().split(",")
    cases = cases.withColumnRenamed(old_name, new_name)

网友

3楼 · 编辑于 2024-06-01 07:06:34

这里的解决方案 pyspark中使用selectExpr（）重命名使用“as”关键字将列“Old\u name”重命名为“New\u name”

cases = cases.selectExpr("province as names1", "city as names2", "confirmed as names3")

相关问题更多 >

编程相关推荐

热门问题

热门文章

基于CSV的Spark数据帧PySpark列名

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >