查找一列的最小行和最大行并减去另一列的值

df = pd.DataFrame({'regionname' : [10022, 10128, 10022, 10022, 10128], 'date' : ['1996-04-01', '2005-01-01', '2014-05-01', '2006-04-01', '2017-06-01', '2017-06-01'], 'median_price': [np.nan, 257700.0, 407100.0, 500000.0, 750000.0, 325000 ]}) ----------------------------------------- Output: regionname date median_price 0 10022 1996-04-01 NaN 1 10128 2014-05-01 407100.0 2 10022 2006-04-01 500000.0 3 10022 2017-06-01 750000.0 4 10128 2017-06-01 325000.0

1条回答

网友

1楼 · 发布于 2024-10-06 08:47:10

第一个想法是两列都使用^{}，然后减去第一个和最后一个值，这是正确的，因为默认情况下会删除缺少的值：

df['date'] = pd.to_datetime(df['date'])

df = df.sort_values(['regionname','date'])
g = df.groupby(['regionname'])['median_price']

df['change'] = g.transform('last') - g.transform('first') 
df = df.sort_index()
print (df)          
   regionname       date  median_price    change
0       10022 1996-04-01           NaN  250000.0
1       10128 2014-05-01      407100.0  -82100.0
2       10022 2006-04-01      500000.0  250000.0
3       10022 2017-06-01      750000.0  250000.0
4       10128 2017-06-01      325000.0  -82100.0

或者您可以通过^{}和^{}使用索引值之差，但遗憾的是，缺少的值不会被忽略，因此必须首先通过^{}创建，然后通过^{}创建新的值列：

df['date'] = pd.to_datetime(df['date'])

g = (df.dropna(subset=['median_price'])
       .set_index('median_price')
       .groupby(['regionname'])['date'])
df['change'] = df['regionname'].map(g.idxmax() - g.idxmin())

print (df)       
   regionname       date  median_price    change
0       10022 1996-04-01           NaN  250000.0
1       10128 2014-05-01      407100.0  -82100.0
2       10022 2006-04-01      500000.0  250000.0
3       10022 2017-06-01      750000.0  250000.0
4       10128 2017-06-01      325000.0  -82100.0

相关问题更多 >

编程相关推荐

热门问题

热门文章