对于我的项目,我必须解析两个大的JSON文件,一个是19.7gb,另一个是66.3gb。JSON数据的结构太复杂了。第一级字典,第二级可能有列表或字典。 这些都是网络日志文件,我需要解析这些日志文件并进行分析。 把这么大的JSON文件转换成CSV文件是可取的吗?在
当我试图将较小的19.7gbjson文件转换为CSV文件时,它大约有2000列和50万行。我用熊猫来分析这些数据。 我没有碰过更大的文件66.3 GB。我的方向是否正确? 当我转换那个更大的文件时,会有多少列和行出来,我不知道。在
如果有其他好的选择,请提出建议。 或者建议直接从JSON文件中读取并在其上应用OOPs概念。在
我已经读过这些文章:article 1 from Stack Overflow和{a2}
您可能希望使用daskits的语法与pandas相似,只是它的parallel(本质上它有很多并行pandas datafame)和lazy(这有助于避免ram限制)。在
您可以使用read_json方法,然后对
dataframe
进行计算。在相关问题 更多 >
编程相关推荐