动态创建自定义聚合以与groupby一起使用

def prepareAggDict(defDict): aggdict={} # iterate over features with upper limit threshold for feature_a, threshold_a in defDict.items(): aggdict[feature_a] = lambda x: (x >= threshold_a).sum() return(aggdict)

data = { "id_col":["A","A","B","B","B"], "column_a":[500,4500,8100,300,11500], "column_b":[800,22340,7554,300,900] } df = pd.DataFrame(data) aggdict = prepareAggDict({"column_a":3500, "column_b":8200}) dailyAgg = df.groupby(["id_col"]).agg(aggdict)

1条回答

网友

1楼 · 发布于 2024-10-06 10:46:43

使用lambda函数来匹配dict中的dict.get，如果没有返回匹配项或缺少值：

aggdict = {"column_a":3500, "column_b":8200}
dailyAgg = df.groupby(["id_col"]).agg(lambda x: (x >= aggdict.get(x.name, np.nan)).sum())
print (dailyAgg)
        column_a  column_b
id_col                    
A              1         1
B              2         0

编辑：我认为在您的解决方案中，对于组值，不传递x，以下是使用nested functions的可能解决方案：

def prepareAggDict(p):
    def ipf(x):
        return (x >= p).sum()
    return ipf 

    
data = {
    "id_col":["A","A","B","B","B"],
    "column_a":[500,4500,8100,300,11500],
    "column_b":[800,22340,7554,300,900]
}
df = pd.DataFrame(data)

d = {"column_a":3500, "column_b":8200}
aggdict = {k: prepareAggDict(v) for k, v in d.items()}

#return same like
#aggdict = {"column_a":prepareAggDict(3500), "column_b":prepareAggDict(8200)} 

dailyAgg = df.groupby(["id_col"]).agg(aggdict)
print (dailyAgg)
        column_a  column_b
id_col                    
A              1         1
B              2         0

相关问题更多 >

编程相关推荐

热门问题

热门文章