Pandas或SQL中不寻常的表缩减

LastName FirstName MiddleInit Company Team LogDate smith joseph a compA teama 2015-09-18 23:00:00 smith joseph a compA teamb 2015-08-15 04:00:00 smith joseph a compA teamc 2015-10-01 02:15:00 lamb mary b compA teama 2015-09-15 23:00:00 lamb mary b compA teamb 2015-10-04 01:15:00 lamb mary b compA teamc 2015-05-01 07:00:00 brady thomas c compB teama 2015-10-02 03:15:00 brady thomas c compB teamb 2015-09-11 20:00:00 brady thomas c compB teamc 2015-06-02 05:00:00 smith john d compB teama 2015-09-12 08:00:00 smith john d compB teamb 2015-10-05 09:15:00 smith john d compB teamc 2015-07-03 15:00:00

LastName FirstName MiddleInit Company Team LogDate smith joseph a compA teamc 2015-10-01 02:15:00 lamb mary b compA teamb 2015-10-04 01:15:00 brady thomas c compB teama 2015-10-02 03:15:00 smith john d compB teamb 2015-10-05 09:15:00

SELECT a.LastName, a.FirstName, a.MiddleInit, a.Company, b.Team, max(b.LogDate) FROM table1 AS a JOIN table2 AS b ON a.LastName=b.LastName AND a.FirstName=b.FirstName AND a.MiddleInit=b.MiddleInit AND a.Company=b.Company GROUP BY a.LastName, a.FirstName, a.MiddleInit, a.Company ORDER BY a.LastName, a.FirstName, a.MiddleInit, a.Company;

In [1]: import pandas as pd In [2]: td1 = pd.read_csv('teamdata.csv',parse_dates=['LogDate']) In [3]: td2 = td1.groupby(['LastName','FirstName','MiddleInit','Company']).max().reset_index() In [4]: td2 Out[4]: LastName FirstName MiddleInit Company Team LogDate 0 brady thomas c compB teamc 2015-10-02 03:15:00 1 lamb mary b compA teamc 2015-10-04 01:15:00 2 smith john d compB teamc 2015-10-05 09:15:00 3 smith joseph a compA teamc 2015-10-01 02:15:00

2条回答

网友
1楼 · 编辑于 2024-09-28 19:21:48

在熊猫中，您可以使用idxmax获得每组的最大值指标：
In [17]: df.loc[df.groupby(['LastName','FirstName','MiddleInit','Company'])['LogDate'].idxmax(), :] Out[17]: LastName FirstName MiddleInit Company Team LogDate 6 brady thomas c compB teama 2015-10-02 03:15:00 4 lamb mary b compA teamb 2015-10-04 01:15:00 10 smith john d compB teamb 2015-10-05 09:15:00 2 smith joseph a compA teamc 2015-10-01 02:15:00

网友
2楼 · 编辑于 2024-09-28 19:21:48

在Postgres中做你想做的事情最简单的方法是使用distinct on：
select distinct on (lastname, firstname, middleinit, company) t.* from table1 t order by lastname, firstname, middleinit, company, logdate desc;

相关问题更多 >

编程相关推荐

热门问题

热门文章