用于读取/解析大量JSON.gz版文件夹

for filename in filenamelist: f = gzip.open(filename): toInsert=[] for line in f: parsedline = json.loads(line) attr1 = parsedline['attr1'] attr2 = parsedline['attr2'] . . . attr10 = parsedline['attr10'] arr = parsedline['attrarray'] for el in arr: try: if el['name'] == 'abc': attrABC = el['value'] elif el['name'] == 'xyz': attrXYZ = el['value'] . . . except KeyError: pass toInsert.append([attr1,attr2,...,attr10,attrABC,attrXYZ...]) table.append(toInsert)

1条回答

网友
1楼 · 发布于 2024-09-24 02:28:30

一块清晰的“低挂水果”
如果您要反复访问相同的压缩文件（从您的描述中看这是否是一次性操作并不特别清楚），那么您应该将它们解压缩一次，而不是每次读取时都立即解压缩。在
解压是一个CPU密集型操作，与zcat/gunzip等C实用程序相比，Python's ^{} module is not that fast。在
可能最快的方法是gunzip所有这些文件，将结果保存到某个地方，然后从脚本中的未压缩文件中读取。在
其他问题
剩下的并不是一个真正的答案，但评论太长了。为了加快速度，您需要考虑几个其他问题：
你想用这些数据做什么？在
你真的需要一次加载所有的文件吗？
如果您可以将数据分割成更小的片段，那么您可以减少程序的延迟（如果不是所需的总时间）。例如，您可能知道您只需要从特定文件中的几行特定的行来进行任何分析。。。太好了！只加载那些特定的行。在
如果您需要以任意和不可预知的方式访问数据，那么您应该将其加载到另一个系统（RDBMS？）它以一种更适合于分析的格式存储它。在
如果最后一个要点是真的，那么可以选择将每个JSON“document”加载到postgresql9.3数据库中（即JSON support is awesome和{a3}），然后从中进行进一步的分析。希望您可以在加载JSON文档时从它们中提取有意义的键。在

一块清晰的“低挂水果”

其他问题

相关问题更多 >

编程相关推荐

热门问题

热门文章