按列1的行数和类别对数据帧排序

网友

1楼 · 编辑于 2024-09-26 18:11:57

一个选项：使用value_counts获取最常用的名称，然后设置、排序和重置索引：

x = list(df['name'].value_counts().index)
df.set_index('name').loc[x].reset_index()

退货

      name  age
0     Paul   12
1     Paul   36
2     Paul   66
3  Michael  100
4  Michael   45
5     Ryan   17

网友

2楼 · 编辑于 2024-09-26 18:11:57

我添加的唯一变化是能够按姓名计数和年龄排序。你知道吗

    df['name_count'] = df['name'].map(df['name'].value_counts())
    df = df.sort_values(by=['name_count', 'age'], 
                        ascending=[False,True]).drop('name_count', axis=1)
    df.reset_index(drop=True)


        name    age
      0 Paul    12
      1 Paul    36
      2 Paul    66
      3 Michael 45
      4 Michael 100
      5 Ryan    17

网友

3楼 · 编辑于 2024-09-26 18:11:57

需要创建一个helper列来排序，在本例中是名称组的size。如果您喜欢全新的RangeIndex，请添加.reset_index(drop=True)，如果原始索引有用，请保持原样。你知道吗

排序不会改变相等值内的顺序，因此第一行总是出现在'Paul'内的第一行

(df.assign(s = df.groupby('name').name.transform('size'))
   .sort_values('s', ascending=False)
   .drop(columns='s'))

输出

      name  age
0     Paul   12
3     Paul   36
4     Paul   66
2  Michael  100
5  Michael   45
1     Ryan   17

为了消除评论中引起的恐惧，这种方法非常有效。比上述方法更重要。而且你不会破坏你的初始索引。你知道吗

import numpy as np
np.random.seed(42)
N = 10**6
df = pd.DataFrame({'name': np.random.randint(1, 10000, N),
                   'age': np.random.normal(0, 1, N)})

%%timeit 
(df.assign(s = df.groupby('name').name.transform('size'))
   .sort_values('s', ascending=False)
   .drop(columns='s'))
#500 ms ± 31.6 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

%%timeit 
x = list(df['name'].value_counts().index)
df.set_index('name').loc[x].reset_index()
#2.67 s ± 166 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

输出

相关问题更多 >

编程相关推荐

热门问题

热门文章

按列1的行数和类别对数据帧排序

输出

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >