检查Pandas数据帧单元格是否包含特定字符串

2024-10-04 09:21:40 发布

您现在位置:Python中文网/ 问答频道 /正文

假设我有以下Pandas数据框:

         a        b             
0        NAN      BABA UN EQUITY
1        NAN      2018  
2        NAN      2017
3        NAN      2016
4        NAN      NAN
5        NAN      700 HK EQUITY
6        NAN      2018  
7        NAN      2017
8        NAN      2016
9        NAN      NAN 

我想检查列b中的每个单元格,看看它是否包含字符串EQUITY。如果是,我想用前一个字符串替换列a中的单元格(下一行,直到所有NAN的行),以获得编辑后的数据帧,如下所示:

         a                 b             
0        NAN               BABA UN EQUITY
1        BABA UN EQUITY    2018  
2        BABA UN EQUITY    2017
3        BABA UN EQUITY    2016
4        NAN               NAN
5        NAN               700 HK EQUITY
6        700 HK EQUITY     2018  
7        700 HK EQUITY     2017
8        700 HK EQUITY     2016
9        NAN               NAN         

我的实际数据帧比上面的大得多,但格式相似。我对熊猫很陌生,但我想我可以通过使用 sheet.loc并替换循环中的单元格值。

但是,我很难找出如何检查单元格是否包含EQUITY。似乎str.contains是我应该使用的,但我不清楚如何使用它。

谢谢!


Tags: 数据字符串编辑pandas格式nanlocsheet
1条回答
网友
1楼 · 发布于 2024-10-04 09:21:40
import numpy as np
import pandas as pd

df = pd.DataFrame({'a': ['NAN', 'NAN', 'NAN', 'NAN', 'NAN', 'NAN', 'NAN', 'NAN', 'NAN', 'NAN'],
 'b': ['BABA UN EQUITY', '2018', '2017', '2016', 'NAN', '700 HK EQUITY', '2018', '2017', '2016', 'NAN']})

# Make sure that all NaN values are `np.nan` not `'NAN'` (strings)
df = df.replace('NAN', np.nan)
mask = df['b'].str.contains(r'EQUITY', na=True)
df.loc[mask, 'a'] = df['b']
df['a'] = df['a'].ffill()
df.loc[mask, 'a'] = np.nan

收益率

                a               b
0             NaN  BABA UN EQUITY
1  BABA UN EQUITY            2018
2  BABA UN EQUITY            2017
3  BABA UN EQUITY            2016
4             NaN             NaN
5             NaN   700 HK EQUITY
6   700 HK EQUITY            2018
7   700 HK EQUITY            2017
8   700 HK EQUITY            2016
9             NaN             NaN

上面有一个稍微棘手的地方是如何定义mask。注意str.contains 返回一个序列,该序列不仅包含TrueFalse值,而且还包含NaN

In [114]: df['b'].str.contains(r'EQUITY')
Out[114]: 
0     True
1    False
2    False
3    False
4      NaN
5     True
6    False
7    False
8    False
9      NaN
Name: b, dtype: object

str.contains(..., na=True)用于将NaN视为True

In [116]: df['b'].str.contains(r'EQUITY', na=True)
Out[116]: 
0     True
1    False
2    False
3    False
4     True
5     True
6    False
7    False
8    False
9     True
Name: b, dtype: bool

一旦你有了mask,这个想法很简单:只要mask是真的,就把值从b复制到a

df.loc[mask, 'a'] = df['b']

向前填充a中的NaN值:

df['a'] = df['a'].ffill()

a中的值替换为NaN,只要mask为真:

df.loc[mask, 'a'] = np.nan

相关问题 更多 >