Pyspark:读取paquet文件时出错

2024-06-14 04:19:19 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在尝试使用以下命令读取pyspark的拼花地板文件:

file = spark.read.parquet("/FileStore/tables/file_name.parquet")

拼花地板文件中的列具有空格。因此,我尝试使用以下方法重命名列:

for c in file.columns:
    file = file.withColumnRenamed(c, c.replace(" ", ""))

当我查看列名和模式时,我的列没有空格。然而,当我试图显示数据帧时,我得到了错误:

AnalysisException: Attribute name "Col Name" contains invalid character(s) among " ,;{}()\n\t=". Please use alias to rename it.;

你知道如何解决这个问题吗


Tags: 文件方法name命令readtablessparkpyspark
1条回答
网友
1楼 · 发布于 2024-06-14 04:19:19

拼花地板文件是如何创建的。如果可能,请检查列的映射是否有空间

如果不可能,请告诉数据帧读取器api您自己的模式

像这样的东西 schema=“col1字符串,col2 int”

df=spark.read.format(“拼花地板”)
.选项(“路径”,ur_路径)
.schema(schema)
.load() 打印(df.schema.simplestring())

请检查它是否有用

相关问题 更多 >