Pandas中的自然排序

data = [ ['ID', 'Time', 'oneMissing', 'singleValue', 'empty', 'oneEmpty'], ['CS1-1', 1, 10000, None, None, 0], ['CS1-2', 2, 20000, 0.0, None, 0], ['CS1-1', 2, 30000, None, None, 0], ['CS1-2', 1, 10000, None, None, None], ['CS1-11', 1, None, 0.0, None, None], ['CS1-2', 3, 30000, None, None, None] ]

3条回答

网友

1楼 · 编辑于 2024-06-28 20:21:18

注意：此方法假设您希望按X对ABC-X形式的ID进行数字排序。

^{}支持按多个序列排序，并避免向数据帧添加额外的序列。此示例按ID的后缀进行数字排序，然后按Time对进行排序：

df = pd.DataFrame(data[1:], columns=data[0])

id_num = df['ID'].str.split('-').str[-1].astype(int)

df = df.iloc[np.lexsort((df['Time'], id_num))]

print(df)

       ID  Time  oneMissing  singleValue empty  oneEmpty
0   CS1-1     1     10000.0          NaN  None       0.0
2   CS1-1     2     30000.0          NaN  None       0.0
3   CS1-2     1     10000.0          NaN  None       NaN
1   CS1-2     2     20000.0          0.0  None       0.0
5   CS1-2     3     30000.0          NaN  None       NaN
4  CS1-11     1         NaN          0.0  None       NaN

网友
2楼 · 编辑于 2024-06-28 20:21:18

使用str.extract，sort_values，然后使用索引重新索引df。在
idx = (df.assign(ID2=df.ID.str.extract(r'(\d+)$').astype(int)) .sort_values(['ID2', 'Time']) .index) df.iloc[idx] ID Time oneMissing singleValue empty oneEmpty 0 CS1-1 1 10000.0 NaN None 0.0 2 CS1-1 2 30000.0 NaN None 0.0 3 CS1-2 1 10000.0 NaN None NaN 1 CS1-2 2 20000.0 0.0 None 0.0 5 CS1-2 3 30000.0 NaN None NaN 4 CS1-11 1 NaN 0.0 None NaN
这是假设您的ID列遵循模式“XXX-NUMBER”。在
一个防愚弄的解决方案将涉及使用^{}模块，它擅长于快速自然排序。再加一点润滑油，我们就可以整理你的数据了。在
^{pr2}$
使用PyPi安装：pip install natsort。在

网友
3楼 · 编辑于 2024-06-28 20:21:18

我想你在找sort_values：

df.sort_values(['ID','Time'])

注意：如果您希望CS1-11在CS1-2之后（这不是标准的字符串顺序），您可能需要引入一个长度列，例如

^{pr2}$

相关问题更多 >

编程相关推荐

热门问题

热门文章