将索引格式的大.json文件读入数据帧

# orient='records' [ {"Product":"Desktop Computer","Price":700}, {"Product":"Tablet","Price":250}, {"Product":"iPhone","Price":800}, {"Product":"Laptop","Price":1200} ] # orient='index' { "0":{"Product":"Desktop Computer","Price":700}, "1":{"Product":"Tablet","Price":250}, "2":{"Product":"iPhone","Price":800}, "3":{"Product":"Laptop","Price":1200} }

df = pd.read_json('test.json', orient='index') File "C:\Users\Username\AppData\Local\Programs\Python\Python37\lib\site- packages\pandas\io\json\_json.py", line 1100, in _parse_no_numpy loads(json, precise_float=self.precise_float), MemoryError

Serial Date PatientID Type Gender YearWeek 0 425571118001461E 2011-06-30 20:59:30 186092 3 1.0 2011-w26 1 425571118001461E 2011-06-30 20:55:30 186092 3 1.0 2011-w26 2 425571118001461E 2013-08-28 09:29:30 186092 3 1.0 2013-w35 3 425571118001461E 2013-08-28 07:44:30 186092 3 1.0 2013-w35 4 425571118001461E 2013-08-27 20:44:30 186092 3 1.0 2013-w35 ... ... ... ... ... ... ... 32290281 4183116300254921 2020-04-09 08:07:50 217553 8 2.0 2020-w15 32290282 4183116300254921 2020-04-08 10:29:50 217553 8 2.0 2020-w15 32290283 4141119420031548 2020-04-20 10:18:02 217555 12 2.0 2020-w17 32290284 4141119420043226 2020-04-20 12:33:11 217560 12 NaN 2020-w17 32290285 4141119420000825 2020-04-20 17:31:44 217568 12 1.0 2020-w17

df = df.pivot_table(index='PatientID', values='Serial', columns='YearWeek', aggfunc=len, fill_value=0) YearWeek 1969-w01 1969-w02 1969-w03 1969-w04 1969-w05 ... 2138-w17 2138-w18 2138-w19 2138-w20 2138-w21 PatientID 0 0 0 0 0 0 ... 0 0 0 0 0 455 1 0 3 0 0 ... 0 0 0 0 0 40036 0 0 0 0 0 ... 0 0 0 0 0 40070 0 0 0 0 0 ... 0 0 0 0 0 40082 0 0 0 0 0 ... 0 0 0 0 0 ... ... ... ... ... ... ... ... ... ... ... ... 217559 0 0 0 0 0 ... 0 0 0 0 0 217560 0 0 0 0 0 ... 0 0 0 0 0 217561 0 0 0 0 0 ... 0 0 0 0 0 217563 0 0 0 0 0 ... 0 0 0 0 0 217568 0 1 0 2 0 ... 0 0 0 0 0

{ "0":{"1969-w01":0,"1969-w02":0,"1969-w03":0,"1969-w04":0, ...}, "455":{"1969-w01":1,"1969-w02":0,"1969-w03":3,"1969-w04":0, ...}, "40036":{"1969-w01":0,"1969-w02":0,"1969-w03":0,"1969-w04":0, ...}, ... "217568":{"1969-w01":0,"1969-w02":1,"1969-w03":0,"1969-w04":2, ...} }

{"0":{"1969-w01":0,"1969-w02":0,"1969-w03":0,"1969-w04":0, ...},"455":{"1969-w01":1,"1969-w02":0,"1969-w03":3,"1969-w04":0, ...},"40036":{"1969-w01":0,"1969-w02":0,"1969-w03":0,"1969-w04":0, ...}, ... "217568":{"1969-w01":0,"1969-w02":1,"1969-w03":0,"1969-w04":2, ...}}

1条回答

网友

1楼 · 发布于 2024-09-24 10:23:12

从最简单到更复杂列出了一些解决方案：

一,。SQL

如果您可以在数据库上执行查询，那么最好的解决方案可能是尝试以更好的格式写入数据？或者，您可以尝试直接从数据库中读取数据-Pandas也可以这样做：）这里是the documentation for pd.read_sql()

二,。有必要吗？

要读取示例中给出的JSON文件，并创建与pivot表示例（JSON键作为DataFrame索引）形式类似的DataFrame，您可以尝试以下简单方法：

# read and transpose!
df = pd.read_json("test.json").T

但是，这可能无法解决内存问题

三,。拆分为多个文件

也许最快的方法是简单地将大文件剪切成较小的文件，每个文件都可以读入一个数据帧（限制任何给定时间所需的工作内存），然后pd.merge或pd.concat生成的数据帧

Linux中有一个很好的工具^{}, which could do it。我注意到您使用的是windows（如果您启用了较新的windows版本，则会提供Linux终端！）。否则，也许有一个类似的工具，但恐怕我不知道

如果你只需要做一次，然后继续你的生活，你也许可以用一些文本编辑器打开你的文件，比如Emacs或VS代码，然后将粘贴部分复制到新文件中。。。跛脚，但可能有用“\_(ツ)_/“”

4.流媒体阅读器

一个名为^{}的包将迭代加载一个JSON文件，该文件允许您定义中断或对每个嵌套分区进行处理，例如，您可以动态地为Pandas创建records格式。该解决方案还承诺了低内存消耗，是一个迭代器（也称为生成器）-您需要了解它是如何工作的。请看一下here for a nice explanation

另一个名为json-streamer的包也可以读取部分JSON内容，尽管考虑到您有一个静态文件，它可能有点过分

一,。SQL

二,。有必要吗？

三,。拆分为多个文件

4.流媒体阅读器

相关问题更多 >

编程相关推荐

热门问题

热门文章