与Pandas一起计数和排序

def answer_five(): df = census_df#.set_index(['STNAME']) df = df[df['SUMLEV'] == 50] df = df[['STNAME','CTYNAME']].groupby(['STNAME']).agg(['count']).sort(['count']) #df.set_index(['count']) print(df.index) # get sorted count max item return df.head(5)

2条回答

网友

1楼 · 编辑于 2024-10-05 14:25:25

我认为您需要添加reset_index，然后将参数ascending=False添加到^{}，因为sort返回：

FutureWarning: sort(columns=....) is deprecated, use sort_values(by=.....) .sort_values(['count'], ascending=False)

df = df[['STNAME','CTYNAME']].groupby(['STNAME'])['CTYNAME'] \
                             .count() \
                             .reset_index(name='count') \
                             .sort_values(['count'], ascending=False) \
                             .head(5)

样品：

df = pd.DataFrame({'STNAME':list('abscscbcdbcsscae'),
                   'CTYNAME':[4,5,6,5,6,2,3,4,5,6,4,5,4,3,6,5]})

print (df)
    CTYNAME STNAME
0         4      a
1         5      b
2         6      s
3         5      c
4         6      s
5         2      c
6         3      b
7         4      c
8         5      d
9         6      b
10        4      c
11        5      s
12        4      s
13        3      c
14        6      a
15        5      e

df = df[['STNAME','CTYNAME']].groupby(['STNAME'])['CTYNAME'] \
                             .count() \
                             .reset_index(name='count') \
                             .sort_values(['count'], ascending=False) \
                             .head(5)

print (df)
  STNAME  count
2      c      5
5      s      4
1      b      3
0      a      2
3      d      1

但似乎你需要^{}：

df = df[['STNAME','CTYNAME']].groupby(['STNAME'])['CTYNAME'].count().nlargest(5)

或：

df = df[['STNAME','CTYNAME']].groupby(['STNAME'])['CTYNAME'].size().nlargest(5)

The difference between size and count is:
size counts NaN values, count does not.

样品：

df = pd.DataFrame({'STNAME':list('abscscbcdbcsscae'),
                   'CTYNAME':[4,5,6,5,6,2,3,4,5,6,4,5,4,3,6,5]})

print (df)
    CTYNAME STNAME
0         4      a
1         5      b
2         6      s
3         5      c
4         6      s
5         2      c
6         3      b
7         4      c
8         5      d
9         6      b
10        4      c
11        5      s
12        4      s
13        3      c
14        6      a
15        5      e

df = df[['STNAME','CTYNAME']].groupby(['STNAME'])['CTYNAME']
                             .size()
                             .nlargest(5)
                             .reset_index(name='top5')
print (df)
  STNAME  top5
0      c     5
1      s     4
2      b     3
3      a     2
4      d     1

网友

2楼 · 编辑于 2024-10-05 14:25:25

我不知道你的df长什么样。但是，如果必须按计数对多个类别的频率进行排序，则更容易从df中分割一个序列并对该序列进行排序：

series = df.count().sort_values(ascending=False)
series.head()

请注意，本系列将使用类别的名称作为索引！

相关问题更多 >

编程相关推荐

热门问题

热门文章

与Pandas一起计数和排序

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >