如何确定哪些ID在Python数据帧的另一列中的值随时间而增加？

| id | value | date | +====+=======+===========+ | 1 | 50 | 1-Feb-19 | +----+-------+-----------+ | 1 | 100 | 5-Feb-19 | +----+-------+-----------+ | 1 | 200 | 6-Jun-19 | +----+-------+-----------+ | 1 | 500 | 1-Dec-19 | +----+-------+-----------+ | 2 | 10 | 6-Jul-19 | +----+-------+-----------+ | 3 | 500 | 1-Mar-19 | +----+-------+-----------+ | 3 | 200 | 5-Apr-19 | +----+-------+-----------+ | 3 | 100 | 30-Jun-19 | +----+-------+-----------+ | 3 | 10 | 25-Dec-19 | +----+-------+-----------+

2条回答

网友

1楼 · 编辑于 2024-05-05 20:30:28

df['new'] = df.groupby(['id'])['value'].transform(lambda x : \
                      np.where(x.diff()>0,'incresase',
                      np.where(x.diff()<0,'decrease',' ')))

df = df.groupby('id').new.agg(['last'])
df

输出：

      last
id  
1   increase
2    
3   decrease

仅增加ID:

increasingList = df[(df['last']=='increase')].index.values
print(increasingList)

结果:

[1]

假设这不会发生

1  50
1  100
1  50

如果是，那么：

df['new'] = df.groupby(['id'])['value'].transform(lambda x : \
                      np.where(x.diff()>0,'increase',
                      np.where(x.diff()<0,'decrease',' ')))
df

输出：

    value   new
id      
1   50   
1   100 increase
1   200 increase
2   10   
3   500  
3   300 decrease
3   100 decrease

Concat字符串：

df = df.groupby(['id'])['new'].apply(lambda x: ','.join(x)).reset_index()
df

中间结果：

    id  new
0   1    ,increase,increase
1   2    
2   3    ,decrease,decrease

检查行中是否存在减少/仅存在“”。放下它们

df = df.drop(df[df['new'].str.contains("dec")].index.values)
df = df.drop(df[(df['new']==' ')].index.values)
df

结果:

    id  new
0   1    ,increase,increase

网友

2楼 · 编辑于 2024-05-05 20:30:28

可以按id分组，并检查排序的值是否相同，无论是按值排序还是按日期排序：

>>> df.groupby('id').apply( lambda x:
...    (
...        x.sort_values('value', ignore_index=True)['value'] == x.sort_values('date', ignore_index=True)['value']
...    ).all()
... )
id
1     True
2     True
3    False
dtype: bool

编辑：

要使id=2不为真，我们可以这样做：

>>> df.groupby('id').apply( lambda x:
...    (
...        (x.sort_values('value', ignore_index=True)['value'] == x.sort_values('date', ignore_index=True)['value'])
...        & (len(x) > 1)
...    ).all()
... )
id
1     True
2    False
3    False
dtype: bool

相关问题更多 >

编程相关推荐

热门问题

热门文章