PySpark - Parquet - 调用 None.Non 时发生错误

2024-06-03 13:30:37 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个hdf5文件,里面有大约200个组。因此,对于每个组,我做了一个代码,将它们转换成一个拼花板文件,其中包括:

fastparquet.write(dir_name + '/' + metricname + '.parq', groupDataFrame)

在那之后,我试着去读它们,除了一些我得到错误信息的度量之外,它运行得很好:(我使用HDFVIEW查看这个度量的值是否有问题,但是我什么也没看到,只有整数值)

^{pr2}$

谢谢你的帮助。在


Tags: 文件代码name度量dir整数writehdf5
1条回答
网友
1楼 · 发布于 2024-06-03 13:30:37

所以这是一个类型的问题,因为拼花地板不支持所有类型。 我用sql格式发出了读请求,如下所示:

df = spark.sql("SELECT * FROM parquet.`file.parq`")

给我错误消息:

^{pr2}$

所以我在创建这个拼花板文件时将int32类型改为float,问题就解决了。在

相关问题 更多 >