在NumPy中使用结构化对象数组

1条回答

网友

1楼 · 发布于 2024-09-30 03:22:35

使用Pandas，可以将数据存储在平面数据框中，使用group值指示数据来自原始数组的哪一行：

import numpy as np
import pandas as pd
df = pd.DataFrame([
    (0, 1, 2),
    (1, 1, 5),
    (1, 93, 46),
    (2, 4, 3)], dtype='f8', columns=['group', 'x', 'y'])
print(df)
#    group     x     y
# 0    0.0   1.0   2.0
# 1    1.0   1.0   5.0
# 2    1.0  93.0  46.0
# 3    2.0   4.0   3.0

那么第一个操作仅仅是x和y列的一部分：

print(df[['x','y']])
#       x     y
# 0   1.0   2.0
# 1   1.0   5.0
# 2  93.0  46.0
# 3   4.0   3.0

第二个操作可以使用groupby/idxmax：

print(df.loc[df.groupby('group')['y'].idxmax(), ['x', 'y']])
#       x     y
# 0   1.0   2.0
# 2  93.0  46.0
# 3   4.0   3.0

给定结构化NumPy数组arr，您将不得不循环执行列表至少列出一次以执行这些操作。因此，您不妨花一次钱将数据组织到一个更好的数据结构中，例如Pandas DataFrame。你知道吗

有一种方法可以将arr转换为df：

import numpy as np
import pandas as pd

arr = np.array([([1.     ], [2.     ]),
                ([1., 93.], [5., 46.]),
                ([4.     ], [3.     ])],
               dtype=[('x','O'), ('y', 'O')])

df = pd.DataFrame(arr)
df = (pd.concat({col: df[col].apply(pd.Series).stack() for col in df}, axis=1)
      .reset_index(drop=True))
print(df)

收益率

      x     y
0   1.0   2.0
1   1.0   5.0
2  93.0  46.0
3   4.0   3.0

相关问题更多 >

编程相关推荐

热门问题

热门文章

在NumPy中使用结构化对象数组

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >