pandas多组数据的透视表

%pylab inline import seaborn as sns sns.set(color_codes=True) import pandas as pd import numpy as np df = pd.DataFrame({"user_id": [1, 2, 3, 4, 5, 6, 7, 8, 9], "is_sick": [0, 0, 0, 0, 0, 0, 1, 1, 1], "sex": ["male", "female", "male", "female", "female", "male", "male", "female", "female"], "age_group": ["young", "old", "old", "young", "small", "old", "young", "young", "old"], "metric_1": [1, 2, 2, 3, 3, 4, 5, 6, 7]}) df['date'] = '2019-01-01' df['qcut_metric_1'] = pd.qcut(df.metric_1, [0, .25, .5, .66, .75, .97, 1]) # make some more data df_2 = df.copy() df_2['date'] = '2019-02-01' df = pd.concat([df, df_2])

sick_percentage__sex qcut_metric_1 sex (0.999, 2.0] female 0.40 male 0.25 (2.0, 3.0] female 0.40 (3.0, 4.28] male 0.25 (4.28, 5.0] male 0.25 (5.0, 6.76] female 0.40 (6.76, 7.0] female 0.40

编辑

np.meanas pivot聚合函数可能会提供扭曲的结果（因为如果每个组的用户数不是常数，那么分组平均数的平均数可能是不可交换的）。因此，我需要使用加权平均数。我更新了样本数据集。你知道吗

agg = df.groupby(['sex']).agg({'user_id':pd.Series.nunique, 'is_sick':pd.Series.mean}) agg.columns = ['unique_users', 'sick_percentage__sex'] df = df.merge(agg, on='sex')

现在为数据透视表的输入提供数据帧。你知道吗

但现在我也在与加权平均法的语法作斗争：

def wavg(x): print(x) return np.average(x['sick_percentage__sex'], weights= x['unique_users'])

作为数据透视表 pd.pivot表（df，值=['sick\u percentage\u sex'，'unique\u users'，索引=['qcut\u metric\u 1'，'sex'，列=[]，aggfunc=wavg）只将单个序列（而不是两个序列（值+权重））传递给函数。你知道吗

1条回答

网友

1楼 · 发布于 2024-06-28 19:12:11

也许透视表不是解决问题的正确方法。你知道吗

一个最小的解决方案可以像下面的代码一样遍历所有队列。你知道吗

有没有可能找到更有效的解决方案？对于未压缩的CSV/我的输入文件是120G，当通过gzip压缩时，仍保留3GB，这将转换为熊猫大约35GB的内存需求。你知道吗

%pylab inline

import seaborn as sns
sns.set(color_codes=True)

import pandas as pd
import numpy as np
df = pd.DataFrame({"user_id": [1, 2, 3, 4, 5,
                          6, 7, 8, 9],
    "is_sick": [0, 0, 0, 0, 0,
                          0, 1, 1, 1],
                    "sex": ["male", "female", "male", "female", "female",
                          "male", "male", "female", "female"],
                    "age_group": ["young", "old", "old", "young",
                          "small", "old", "young", "young",
                          "old"],
                    "metric_1": [1, 2, 2, 3, 3, 4, 5, 6, 7]})
df['date'] = '2019-01-01'
df['qcut_metric_1'] = pd.qcut(df.metric_1, [0, .25, .5, .66, .75, .97, 1])

# make some more data
df_2 = df.copy()
df_2['date'] = '2019-02-01'
df = pd.concat([df, df_2])
cohorts = [['sex', 'age_group'], ['sex'], ['age_group']]
for cohort in cohorts:
    cohort_name = '_'.join(cohort)
    # print(cohort_name)
    agg = df.groupby(cohort).agg({'user_id':pd.Series.nunique, 'is_sick':pd.Series.mean})
    sick_percentage_column = f'sick_percentage__{cohort_name}'
    agg.columns = ['unique_users', sick_percentage_column]
    merged = df.merge(agg, on=cohort) # INNER (default) JOIN ok, as agg derived from total => no values lost

    groupings = ['qcut_metric_1']
    groupings.extend(cohort)
    result = merged.groupby(groupings).apply(lambda x: np.average(x[sick_percentage_column], weights= x['unique_users'])).reset_index().rename({0:sick_percentage_column}, axis=1)
    display(result)

编辑

相关问题更多 >

编程相关推荐

热门问题

热门文章