我正在尝试使用以下命令读取pyspark的拼花地板文件:
file = spark.read.parquet("/FileStore/tables/file_name.parquet")
拼花地板文件中的列具有空格。因此,我尝试使用以下方法重命名列:
for c in file.columns:
file = file.withColumnRenamed(c, c.replace(" ", ""))
当我查看列名和模式时,我的列没有空格。然而,当我试图显示数据帧时,我得到了错误:
AnalysisException: Attribute name "Col Name" contains invalid character(s) among " ,;{}()\n\t=". Please use alias to rename it.;
你知道如何解决这个问题吗
拼花地板文件是如何创建的。如果可能,请检查列的映射是否有空间
如果不可能,请告诉数据帧读取器api您自己的模式
像这样的东西 schema=“col1字符串,col2 int”
df=spark.read.format(“拼花地板”)
.选项(“路径”,ur_路径)
.schema(schema)
.load() 打印(df.schema.simplestring())
请检查它是否有用
相关问题 更多 >
编程相关推荐