将最后一行的值添加到此行

+------+---------+-------+ | Col1 | Name | Col3 | +------+---------+-------+ | Dog | Walter | Beer | | Cat | Walter | Wine | | Dog | Alfonso | Cider | | Dog | Alfonso | Cider | | Dog | Alfonso | Vodka | +------+---------+-------+

3条回答

网友

1楼 · 编辑于 2024-06-02 13:12:51

下面是在索引上使用accumulate和使用df.agg方法的另一种方法：

from itertools import accumulate
import numpy as np

def fun(a):
    l = [[i] for i in a.index]
    acc = list(accumulate(l, lambda x, y: np.concatenate([x, y])))
    return pd.concat([a.loc[idx].agg(','.join) for idx in acc],axis=1).T
out = pd.concat([fun(v) for k,v in df.groupby('Name',sort=False)])

print(out)
          Col1                     Name               Col3
0          Dog                   Walter               Beer
1      Dog,Cat            Walter,Walter          Beer,Wine
0          Dog                  Alfonso              Cider
1      Dog,Dog          Alfonso,Alfonso        Cider,Cider
2  Dog,Dog,Dog  Alfonso,Alfonso,Alfonso  Cider,Cider,Vodka

您可以在最后添加一个带有drop=True的重置索引来重置索引

网友

2楼 · 编辑于 2024-06-02 13:12:51

您可以使用groupby和cumsum。如果您不介意（取决于您在之后的使用）在末尾添加一个额外的逗号/空格，您可以执行以下操作：

print (df.groupby('Name')[['Col1', 'Col3']].apply(lambda x: (x + ', ').cumsum()))
              Col1                   Col3
0            Dog,                  Beer, 
1       Dog, Cat,            Beer, Wine, 
2            Dog,                 Cider, 
3       Dog, Dog,          Cider, Cider, 
4  Dog, Dog, Dog,   Cider, Cider, Vodka,

但是，如果要删除额外的逗号/空格，只需在每列中添加str[：-2]，如下所示：

print (df.groupby('Name')[['Col1', 'Col3']].apply(lambda x: (x + ', ').cumsum())\
         .apply(lambda x: x.str[:-2]))
            Col1                 Col3
0            Dog                 Beer
1       Dog, Cat           Beer, Wine
2            Dog                Cider
3       Dog, Dog         Cider, Cider
4  Dog, Dog, Dog  Cider, Cider, Vodka

网友

3楼 · 编辑于 2024-06-02 13:12:51

基本上，您要做的是在每个组上运行一个交换聚合函数。Pandas有comsum用于常规加法，但不支持自定义交换函数。为此，您可能需要使用一些numpy函数：

df = pd.DataFrame({"col1": ["D", "C", "D", "D", "D"], "Name": ["W", "W", "A", "A", "A"], 
                   "col3": ["B", "W", "C", "C", "V"] })


import numpy as np
def ser_accum(op,ser):
    u_op = np.frompyfunc(op, 2, 1) # two inputs, one output
    return u_op.accumulate(ser, dtype=np.object)

def plus(x,y):
    return x + "," + y

def accum(df):
    for col in df.columns:
        df[col] = ser_accum(plus, df[col])
    return df

df.groupby("Name").apply(accum)

结果如下：

col1    Name    col3
0   D   W   B
1   D,C W,W B,W
2   D   A   C
3   D,D A,A C,C
4   D,D,D   A,A,A   C,C,V

相关问题更多 >

编程相关推荐

热门问题

热门文章