如何在复杂的情况下与大Pandas分心

2024-09-26 23:17:53 发布

您现在位置:Python中文网/ 问答频道 /正文

我有下面这样的数据帧

age  type days 
1    a    1
2    b    3
2    b    4
3    a    5   
4    b    2
6    c    1
7    f    0
7    d    4
10   e    2
14   a    1

首先我想和年龄结合

年龄

[0~4]

^{pr2}$

然后用type分组来汇总和计算天数

   sum count
a   6   2
b   9   3
c   0   0
d   0   0
e   0   0
f   0   0

然后我想把这个方法应用到另一个binns。在

[5~9] [11~14]

我想要的结果如下

   [0~4]         [5~9]      [10~14]
   sum count  sum count  sum count
a   6   2      0   0      1   1
b   9   3      0   0      0   0
c   0   0      1   1      0   0
d   0   0      4   1      0   0
e   0   0      0   0      2   1
f   0   0      0   1      0   0

如何做到这一点? 对我来说很复杂。。在


Tags: 数据方法agetypecountdays汇总sum
2条回答

如果您不太关心列顺序,请考虑使用pd.cut,因为countsum在bin下不是成对的。通过操纵,你可以改变这种顺序。在

df['bin'] = pd.cut(df.age, [0,4,9,14])

pvtdf = df.pivot_table(index='type', columns=['bin'], values='days', 
                       aggfunc=('count', 'sum')).fillna(0)

#       count                   sum               
# bin  (0, 4] (4, 9] (9, 14] (0, 4] (4, 9] (9, 14]
# type                                            
# a       2.0    0.0     1.0    6.0    0.0     1.0
# b       3.0    0.0     0.0    9.0    0.0     0.0
# c       0.0    1.0     0.0    0.0    1.0     0.0
# d       0.0    1.0     0.0    0.0    4.0     0.0
# e       0.0    0.0     1.0    0.0    0.0     2.0
# f       0.0    1.0     0.0    0.0    0.0     0.0

我们将使用一些堆栈和groupby操作来获得所需的输出。在

string_ = io.StringIO('''age  type days 
                         1    a    1
                         2    b    3
                         2    b    4
                         3    a    5   
                         4    b    2
                         6    c    1
                         7    f    0
                         7    d    4
                         10   e    2
                         14   a    1''')
df = pd.read_csv(string_, sep='\s+')

df['age_bins'] = pd.cut(df['age'], [0,4,9,14])

df_stacked = df.groupby(['age_bins', 'type']).agg({'days': np.sum,
                         'type': 'count'}).transpose().stack().fillna(0)
df_stacked.rename(index={'days': 'sum', 'type': 'count'}, inplace=True)

>>> df_stacked
age_bins    (0, 4]  (4, 9]  (9, 14]
      type                         
sum   a        6.0     0.0      1.0
      b        9.0     0.0      0.0
      c        0.0     1.0      0.0
      d        0.0     4.0      0.0
      e        0.0     0.0      2.0
      f        0.0     0.0      0.0
count a        2.0     0.0      1.0
      b        3.0     0.0      0.0
      c        0.0     1.0      0.0
      d        0.0     1.0      0.0
      e        0.0     0.0      1.0
      f        0.0     1.0      0.0

这并不能产生您所列出的确切输出,但它是相似的,我认为索引和检索数据会更容易。或者,您可以使用下面的方法来获得类似所需输出的内容。在

^{pr2}$

相关问题 更多 >

    热门问题