分组，统计和计算Pandas的比例？

网友

1楼 · 编辑于 2024-09-28 13:29:02

您可以使用^{}。在

首先按组织分组，统计逾期/未逾期的数量。然后计算百分比。在

df_overdue = df.groupby(['org']).apply(lambda dft: pd.Series({'is_overdue': dft.is_overdue.sum(), 'not_overdue': (~dft.is_overdue).sum()}))
df_overdue['proportion_overdue'] = df_overdue['is_overdue'] / (df_overdue['not_overdue'] + df_overdue['is_overdue'])

print(df_overdue)

输出

^{pr2}$

网友

2楼 · 编辑于 2024-09-28 13:29:02

您可以使用pd.crosstab来创建一个频率表，即为每个org计算is_overdue的数目。在

import pandas as pd
d = {
  'id': [1, 2, 3, 4, 5], 
  'is_overdue': [True, False, True, True, False],
  'org': ['A81001', 'A81002', 'A81001', 'A81002', 'A81003']
}
df = pd.DataFrame(data=d)

result = pd.crosstab(index=df['org'], columns=df['is_overdue'], margins=True)
result = result.rename(columns={True:'is_overdue', False:'not overdue'})
result['proportion'] = result['is_overdue']/result['All']*100
print(result)

收益率

^{pr2}$

网友

3楼 · 编辑于 2024-09-28 13:29:02

有更有效的方法来实现这一点，但由于您最初尝试使用聚合函数，因此使用聚合函数可以解决您的问题：

df.is_overdue = df.is_overdue.map({True: 1, False: 0})
df.groupby(['org'])['is_overdue'].agg({'total_count':'count', 'is_overdue':   'sum'}).reset_index()

现在你可以很容易地计算出未逾期和逾期比例。在

相关问题更多 >

编程相关推荐

热门问题

热门文章

分组，统计和计算Pandas的比例？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >