分组Numpy数组并返回最小值

data = [(1,"YES", 54.234), (1,"YES", 1.0001), (2,"YES", 4.234), (3,"YES", 0.234)] dtypes = [("GROUPID", np.int), ("HASNEAR", "|S255"), ("DISTANCE", np.float64)] array = np.array(data, dtype=dtypes)

3条回答

网友

1楼 · 编辑于 2024-10-01 00:20:35

正如其他人所说明的，您可以在pandas中实现这一点，但它是一个相对较重的抽象，它引入了您可能感兴趣或可能不感兴趣的各种其他复杂性。在

numpy_indexed包独立地专门处理这类操作：

import numpy_indexed as npi
npi.group_by(data['GROUPID']).min(data['DISTANCE'])

网友

2楼 · 编辑于 2024-10-01 00:20:35

创建pandas数据帧，按GROUPID分组，按min()聚合：

df = pd.DataFrame(data, columns=('GROUPID','HASNEAR','DISTANCE'))
df.groupby('GROUPID').min()

网友

3楼 · 编辑于 2024-10-01 00:20:35

在加州大学你可以做到：

In [8]:
import pandas as pd
# construct a df
df = pd.DataFrame(array)
df

Out[8]:
   GROUPID HASNEAR  DISTANCE
0        1  b'YES'   54.2340
1        1  b'YES'    1.0001
2        2  b'YES'    4.2340
3        3  b'YES'    0.2340

现在您可以在GROUPID列上groupby，调用idxmin返回感兴趣列的最小值的索引，并使用它来过滤原始数据：

^{pr2}$

您可以看到idxmin返回的是最小值的索引：

In [10]:
df.groupby('GROUPID')['DISTANCE'].idxmin()

Out[10]:
GROUPID
1    1
2    2
3    3
Name: DISTANCE, dtype: int64

您可以通过调用.values将其转换回numpy数组：

In [11]:
df.loc[df.groupby('GROUPID')['DISTANCE'].idxmin()].values

Out[11]:
array([[1, b'YES', 1.0001],
       [2, b'YES', 4.234],
       [3, b'YES', 0.234]], dtype=object)

相关问题更多 >

编程相关推荐

热门问题

热门文章