基于条件最小值/最低点值过滤数据帧（python/pandas）

2条回答

网友

1楼 · 编辑于 2024-09-24 06:23:53

您可以尝试transform，它类似于groupby，但在聚合后返回带有原始索引的数据

df[df['value'] == df.groupby('id')['value'].transform(np.min) +2]

网友

2楼 · 编辑于 2024-09-24 06:23:53

更新答案：

多亏了这番评论，我才得以澄清问题，并想出了解决办法。在

要测试第一个需求（value>；=id+2的最小值），您需要一个系列来保存每个记录的id的最小值。如果您按id对dataframe进行分组并调用value系列的min()方法，这就是结果。您将需要从该系列中删除索引（groupby()方法会扰乱索引）。在

为了满足第二个要求（值出现在最小值的记录之后的记录中），只需使用上面确定的idxmin()方法。这将返回每个记录的id的最小值的一系列索引。在

然后，您可以将dataframe的value系列与第一个系列进行比较，并将dataframe的index与第二个序列进行比较，中间使用一个按位的&运算符，从而获得所需的结果（我认为）。在

import pandas as pd

df = pd.DataFrame({'id': [1,1,1,1,1,1,1,2,2,2,2,2,2], 'value': [8,5,3,2,1,2,3,13,8,5,3,2,1]})

min_value = df.groupby('id')['value'].min()[df['id']]

min_value.reset_index(drop = True, inplace = True)

min_index = df.groupby('id')['value'].idxmin()[df['id']]

df['condition'] = (df['value'] >= min_value + 2) & (df.index > min_index)

结果是在dataframe中生成一个新的序列，它指示给定的记录是否满足所需的条件。在

旧答案：

这个问题仍然有点不清楚（你的理想输出是什么？），但我想到了这个代码，它测试每个id的分组值，以查看是否存在一个值，即最小值的索引之后有两个索引。在

^{pr2}$

有了这个，test_id(1) == True，test_id(2) == False。在

相关问题更多 >

编程相关推荐

热门问题

热门文章