如何在python中展平数据numpy.ndarray

sample_data=[list([{'region': 'urn:li:region:9194', 'followerCounts': {'organicFollowerCount': 157, 'paidFollowerCount': 0}}, {'region': 'urn:li:region:7127', 'followerCounts': {'organicFollowerCount': 17, 'paidFollowerCount': 0}}])]

2条回答

网友

1楼 · 编辑于 2024-09-28 17:06:47

以下是一种使用pd.json_normalize的方法：

import pandas as pd

# note that `sample data` has been modified into a list of dictionaries
sample_data = [
    {'region': 'urn:li:region:9194', 
     'followerCounts': {'organicFollowerCount': 157, 'paidFollowerCount': 0}}, 
    {'region': 'urn:li:region:7127', 
     'followerCounts': {'organicFollowerCount': 17, 'paidFollowerCount': 0}}
]

现在，将列表中的每个项目转换为数据帧：

dfs = list()

# convert one dict at a time into a data frame, using json_normalize()
for sd in sample_data:
    t = pd.json_normalize(sd)
    dfs.append(t)

# convert list of dataframes into a single data frame, 
#   and change column labels
t = pd.concat(dfs).rename(columns={
    'followerCounts.organicFollowerCount': 'organicFollowerCount',
    'followerCounts.paidFollowerCount': 'paidFollowerCount'
}).set_index('region')

print(t)


                    organicFollowerCount  paidFollowerCount
region                                                     
urn:li:region:9194                   157                  0
urn:li:region:7127                    17                  0

正如@TheHuman橡皮擦所指出的，这种格式并不理想，但我们不能总是影响我们接收的数据的格式

网友

2楼 · 编辑于 2024-09-28 17:06:47

使用Numpy的展平方法将无法按所需方式展平此数据。该方法只需将多维数据集展平为一维。您可以阅读文档here

还有几件事。首先，上面的示例数据不是ndarray，它只是一个python列表。实际上，由于您在方括号内调用list()，它是一个嵌套的字典列表。这真的不是一种存储这些信息的好方法，基于这种复杂的格式，您几乎没有选择可以很好地将其“展平”到您想要的表中

如果您有许多这样的行，我将执行以下操作：

headers = ["region", "organicFollowerCount", "paidFollowerCount"]
data = [headers]
for row in sample_data[0]: # Subindexing here because it is unwisely a nested list
    formatted_row = []
    formatted_row.append(row["region"])
    formatted_row.append(row["followerCounts"]["organicFollowerCount"])
    formatted_row.append(row["followerCounts"]["paidFollowerCount"]
    data.append(formatted_row)
data = np.array(data)

这将为您提供一系列的数据，但这仍然是一个丑陋的解决方案。实际上，这是一种非常不切实际的数据表示方式，您应该放弃它，换一种更好的方式

最后一件事：不要使用驼峰案例。这是一些语言（如Java）的标准实践，但Python也不是。使用organic_follower_count等代替organicFollowerCount

相关问题更多 >

编程相关推荐

热门问题

热门文章