检查Pandas数据帧单元格是否包含特定字符串

a b 0 NAN BABA UN EQUITY 1 NAN 2018 2 NAN 2017 3 NAN 2016 4 NAN NAN 5 NAN 700 HK EQUITY 6 NAN 2018 7 NAN 2017 8 NAN 2016 9 NAN NAN

a b 0 NAN BABA UN EQUITY 1 BABA UN EQUITY 2018 2 BABA UN EQUITY 2017 3 BABA UN EQUITY 2016 4 NAN NAN 5 NAN 700 HK EQUITY 6 700 HK EQUITY 2018 7 700 HK EQUITY 2017 8 700 HK EQUITY 2016 9 NAN NAN

1条回答

网友

1楼 · 发布于 2024-10-04 09:21:40

import numpy as np
import pandas as pd

df = pd.DataFrame({'a': ['NAN', 'NAN', 'NAN', 'NAN', 'NAN', 'NAN', 'NAN', 'NAN', 'NAN', 'NAN'],
 'b': ['BABA UN EQUITY', '2018', '2017', '2016', 'NAN', '700 HK EQUITY', '2018', '2017', '2016', 'NAN']})

# Make sure that all NaN values are `np.nan` not `'NAN'` (strings)
df = df.replace('NAN', np.nan)
mask = df['b'].str.contains(r'EQUITY', na=True)
df.loc[mask, 'a'] = df['b']
df['a'] = df['a'].ffill()
df.loc[mask, 'a'] = np.nan

收益率

                a               b
0             NaN  BABA UN EQUITY
1  BABA UN EQUITY            2018
2  BABA UN EQUITY            2017
3  BABA UN EQUITY            2016
4             NaN             NaN
5             NaN   700 HK EQUITY
6   700 HK EQUITY            2018
7   700 HK EQUITY            2017
8   700 HK EQUITY            2016
9             NaN             NaN

上面有一个稍微棘手的地方是如何定义mask。注意str.contains 返回一个序列，该序列不仅包含True和False值，而且还包含NaN：

In [114]: df['b'].str.contains(r'EQUITY')
Out[114]: 
0     True
1    False
2    False
3    False
4      NaN
5     True
6    False
7    False
8    False
9      NaN
Name: b, dtype: object

str.contains(..., na=True)用于将NaN视为True：

In [116]: df['b'].str.contains(r'EQUITY', na=True)
Out[116]: 
0     True
1    False
2    False
3    False
4     True
5     True
6    False
7    False
8    False
9     True
Name: b, dtype: bool

一旦你有了mask，这个想法很简单：只要mask是真的，就把值从b复制到a：

df.loc[mask, 'a'] = df['b']

向前填充a中的NaN值：

df['a'] = df['a'].ffill()

将a中的值替换为NaN，只要mask为真：

df.loc[mask, 'a'] = np.nan

相关问题更多 >

编程相关推荐

热门问题

热门文章