在Python中解析/处理巨大JSON文件的有效方法是什么?

2024-06-28 11:31:57 发布

您现在位置:Python中文网/ 问答频道 /正文

对于我的项目,我必须解析两个大的JSON文件,一个是19.7gb,另一个是66.3gb。JSON数据的结构太复杂了。第一级字典,第二级可能有列表或字典。 这些都是网络日志文件,我需要解析这些日志文件并进行分析。 把这么大的JSON文件转换成CSV文件是可取的吗?在

当我试图将较小的19.7gbjson文件转换为CSV文件时,它大约有2000列和50万行。我用熊猫来分析这些数据。 我没有碰过更大的文件66.3 GB。我的方向是否正确? 当我转换那个更大的文件时,会有多少列和行出来,我不知道。在

如果有其他好的选择,请提出建议。 或者建议直接从JSON文件中读取并在其上应用OOPs概念。在

我已经读过这些文章:article 1 from Stack Overflow和{a2}


Tags: 文件csv数据项目json列表字典方向
1条回答
网友
1楼 · 发布于 2024-06-28 11:31:57

您可能希望使用daskits的语法与pandas相似,只是它的parallel(本质上它有很多并行pandas datafame)和lazy(这有助于避免ram限制)。在

您可以使用read_json方法,然后对dataframe进行计算。在

相关问题 更多 >