如何删除重复条目但保留第一行选定列值和最后一行选定列值？

1条回答

网友

1楼 · 发布于 2024-05-03 05:35:56

将^{}与为输出的每列指定的^{}、^{}和^{}一起使用：

注意：谢谢@Erfan-如果需要，使用minimal和maximum列代替first和last将dict更改为{'opening':'min','purchase':'sum','paid':'sum', 'closing':'max'}

df1 = (df.groupby(["vendor_ID", "date"], as_index=False)
         .agg({'opening':'first','purchase':'sum','paid':'sum', 'closing':'last'}))
print (df1)
  vendor_ID        date  opening  purchase  paid  closing
0     B2345  01/01/2015        5        70    30       45
1     B2345  02/01/2015       45         4    30       19

如果不确定日期时间是否排序：

df['date'] = pd.to_datetime(df['date'], dayfirst=True)
df = df.sort_values(["vendor_ID", "date"])

df1 = (df.groupby(["vendor_ID", "date"], as_index=False)
         .agg({'opening':'first','purchase':'sum','paid':'sum', 'closing':'last'}))
print (df1)
  vendor_ID       date  opening  purchase  paid  closing
0     B2345 2015-01-01        5        70    30       45
1     B2345 2015-01-02       45         4    30       19

您还可以为sum所有没有前2个并用于第一个和最后一个的列创建动态字典：

df['date'] = pd.to_datetime(df['date'], dayfirst=True)
df = df.sort_values(["vendor_ID", "date"])

d = {'opening':'first', 'closing':'last'}
sum_cols = df.columns.difference(list(d.keys()) + ['vendor_ID','date'])

final_d = {**dict.fromkeys(sum_cols,'sum'), **d}
df1 = df.groupby(["vendor_ID", "date"], as_index=False).agg(final_d).reindex(df.columns,axis=1)
print (df1)
  vendor_ID       date  opening  purchase  paid  closing
0     B2345 2015-01-01        5        70    30       45
1     B2345 2015-01-02       45         4    30       19

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何删除重复条目但保留第一行选定列值和最后一行选定列值？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >