用JSON对象解析和处理大文件的更有效方法

triggerZipFiles = glob.glob('*.zip') for triggerFiles in triggerZipFiles: with zipfile.ZipFile(triggerFiles, 'r') as myzip: for logfile in myzip.namelist(): datacc = [] zipcc = [] csvout = '{}_US.csv'.format(logfile[:-4]) f = myzip.open(logfile) contents = f.readlines() for line in contents: try: parsed = json.loads(line[:-2]) if "CC" in parsed['data']['weatherType'] and "US" in parsed['zipcodes']: datacc.append(parsed['data']) zipcc.append(parsed['zipcodes']) except: pass if len(datacc) > 0: df = pd.concat([pd.DataFrame(zipcc), pd.DataFrame(datacc)], axis=1) df = pd.concat((pd.Series((v, row['key'], row['key'], row['key'], row['key'], row['key'], row['key'], row['key'], row['key'], row['key'], row['key'], row['key'], row['key'], row['key'], row['key'], row['key'], row['key'], row['key'], row['key'], row['key'], row['key'], row['key'], row['key'], row['key'], row['key'], row['key'], row['key'], row['key'], row['key'], row['key'], row['key'], row['key'], row['key'], row['key'], row['key'], row['key'], row['key'], row['key'], row['key'], row['key'], row['key'], row['key'], row['key'], row['key'], row['key'], row['key'], row['key'], row['key'], row['key'], row['key'], row['key'], row['key'], row['key'], row['key'], row['key'], row['key'], row['key'], row['key'], row['key'], row['key'], row['key'], row['key'], row['key'], row['key'], row['key'], row['key'], row['key'], row['key'], row['key'], row['key'], row['key'], row['key']), df.columns) for _, row in df.iterrows() for v in row['US']), axis=1).T df.to_csv(csvout, header=None, index=False) else: pass print datetime.now().strftime('%Y/%m/%d %H:%M:%S') + ": Finished: {}".format(logfile)

1条回答

网友

1楼 · 发布于 2024-09-26 17:48:29

首先，对于json，行并不是一个特别有用的度量！
第二，你的想法是正确的：你肯定想要基于块（分别读取/清理/转储每个部分）。在

我建议使用pandas的read_json函数，它在创建数据帧时效率更高（它不创建临时python dict），请参见reading in json section of the docs。

如果不存在实际上json，那么进行字符串操作使其成为json通常是您的最佳选择。*
如果您有“形状奇怪”的json，那么您可以在读取时^{}，或者在读取DataFrame之后解析包含多个列的列（例如使用Series string方法或apply）。在

*不清楚实际的格式是什么，但通常不需要太多的时间就可以将它们转换为有效的json。

Python的额外提示：如果您的缩进级别超过了几个级别，请考虑将其拆分成更多的函数。（这里最明显的选择是使用f1(logfile)和{}，但使用描述性名称…）

相关问题更多 >

编程相关推荐

热门问题

热门文章