Python：将列中的JSON结构扩展为同一数据帧中的列

ClientToken Data 7a9ee887-8a09-ff9592e08245 [{"summaryId":"4814223456","duration":952,"startTime":1587442919}] bac49563-2cf0-cb08e69daa48 [{"summaryId":"4814239586","duration":132,"startTime":1587443876}]

ClientToken summaryId duration startTime 7a9ee887-8a09-ff9592e08245 4814223456 952 1587442919 bac49563-2cf0-cb08e69daa48 4814239586 132 1587443876`

2条回答

网友

1楼 · 编辑于 2024-09-25 06:24:30

另一种方法是使用defaultdict和ast literal eval：

from collections import defaultdict
import ast
d = defaultdict(list)
#iterate through the Data column and append to dictionary for each key
for ent in df.Data:
    for entry in ast.literal_eval(ent):
        for k, v in entry.items():
            d[k].append(v)

#concat to ClientToken column
pd.concat([df.ClientToken,pd.DataFrame(d)],axis=1)

    ClientToken summaryId   duration    startTime
0   7a9ee887-8a09-ff9592e08245  4814223456  952 1587442919
1   bac49563-2cf0-cb08e69daa48  4814239586  132 1587443876

网友

2楼 · 编辑于 2024-09-25 06:24:30

您可以尝试：

df[["ClientToken"]].join(df.Data.apply(lambda x: pd.Series(json.loads(x[1:-1]))))

解释：

选择Data列并应用以下步骤：
1. 因为“Data”内容被包装在一个列表中，这是一个字符串，所以我们可以使用x[1:-1]（删除第一个和最后一个字符）手动删除[]
2. 因为"Data"列是一个string，我们实际上需要一个JSON，所以我们需要转换它。一种解决方案是使用来自^{}模块的^{}函数。代码变成json.loads(x[1:-1])
3. 然后，使用pd.Series(json.loads(x[1:-1]))将dict转换为^{}
使用^{}将这些新列添加到现有数据帧。另外，您会注意到我使用了double[]来选择"ClientToken"列作为数据帧

代码+插图：

import pandas as pd
import json

# step 1.1
print(df.Data.apply(lambda x: x[1:-1]))
# 0    {"summaryId":"4814223456","duration":952,"star...
# 1    {"summaryId":"4814239586","duration":132,"star...
# Name: Data, dtype: object

# step 1.2
print(df.Data.apply(lambda x: json.loads(x[1:-1])))
# 0    {'summaryId': '4814223456', 'duration': 952, '...
# 1    {'summaryId': '4814239586', 'duration': 132, '...
# Name: Data, dtype: object

# step 1.3
print(df.Data.apply(lambda x: pd.Series(json.loads(x[1:-1]))))
#     summaryId  duration   startTime
# 0  4814223456       952  1587442919
# 1  4814239586       132  1587443876

# step 2
print(df[["ClientToken"]].join(df.Data.apply(lambda x: pd.Series(json.loads(x[1:-1])))))
#                   ClientToken   summaryId  duration   startTime
# 0  7a9ee887-8a09-ff9592e08245  4814223456       952  1587442919
# 1  bac49563-2cf0-cb08e69daa48  4814239586       132  1587443876

编辑1：

由于Data中的list似乎有一些行有多个dicts，您可以尝试：

df[["ClientToken"]].join(df.Data.apply(lambda x: [pd.Series(y)
                                                  for y in json.loads(x)]) \
                    .explode() \
                    .apply(pd.Series))

相关问题更多 >

编程相关推荐

热门问题

热门文章

Python：将列中的JSON结构扩展为同一数据帧中的列

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >