通过将for循环替换为pandas操作来提高代码效率

{1: arrival_time id_col col1 col2 0 1 4 1 a 1 1 10 7 r 2 1 5 4 d, 2: arrival_time id_col col1 col2 6 2 2 89 e 9 2 9 30 d, 3: arrival_time id_col col1 col2 3 3 1 6 t 4 3 7 8 d, 4: arrival_time id_col col1 col2 7 4 3 9 a, 5: arrival_time id_col col1 col2 5 5 8 6 k, 6: arrival_time id_col col1 col2 8 6 6 10 r}

{1: arrival_time id_col col1 col2 0 1 1 1 a 1 1 2 7 r 2 1 3 4 d, 3: arrival_time id_col col1 col2 3 3 4 6 t 4 3 5 8 d, 5: arrival_time id_col col1 col2 5 5 6 6 k, 2: arrival_time id_col col1 col2 6 2 7 89 e 9 2 10 30 d, 4: arrival_time id_col col1 col2 7 4 8 9 a, 6: arrival_time id_col col1 col2 8 6 9 10 r}

1条回答

网友

1楼 · 发布于 2024-06-01 14:13:42

如@anky在评论中提到的：

dict(iter(df.groupby(df['arrival_time'])))

输出：

{1:    arrival_time  id_col  col1 col2
0             1       4     1    a
1             1      10     7    r
2             1       5     4    d, 
2:    arrival_time  id_col  col1 col2
6             2       2    89    e
9             2       9    30    d, 
3:    arrival_time  id_col  col1 col2
3             3       1     6    t
4             3       7     8    d, 
4:    arrival_time  id_col  col1 col2
7             4       3     9    a, 
5:    arrival_time  id_col  col1 col2
5             5       8     6    k, 
6:    arrival_time  id_col  col1 col2
8             6       6    10    r}

与^{的比较：

def m1(df):
  time_unique = df.arrival_time.unique()
  arrival_dict = dict()
  for t in time_unique :
    arrival_dict[t] = df[df.arrival_time == t]
  return arrival_dict

def m2(df):
  return dict(iter(df.groupby(df['arrival_time'])))

in_ = [pd.concat([df]*n) for n in [1,10,100,1000]]

看起来熊猫的解决方案更快

相关问题更多 >

编程相关推荐

热门问题

热门文章