使用str.contains时如何忽略带掩码的行?

2024-09-22 14:26:52 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个需要标准化的存储名称数据框架。例如,麦当劳1234 LA->;麦当劳。您可以在下面看到,大力水手沃尔玛已经标准化:

   id              store  standard
0   1          McDonalds       NaN
1   2               Lidl       NaN
2   3  Lidl New York 123       NaN
3   4                KFC       NaN
4   5      Slidling Shop       NaN
5   6        Lidi Berlin       NaN
6   7         Popeyes NY   Popeyes
7   8  Wallmart LA 90210  Wallmart
8   9               Aldi       NaN
9  10        London Lidl       NaN

我使用str.contains查找存储名称,并将标准化名称放入standard列。这里我将标准化Lidl商店:

df.loc[df.store.str.contains(r'\blidl\b', case=False), 'standard'] = 'Lidl'

print(df)

   id              store  standard
0   1          McDonalds       NaN
1   2               Lidl      Lidl
2   3  Lidl New York 123      Lidl
3   4                KFC       NaN
4   5      Slidling Shop       NaN
5   6        Lidi Berlin       NaN
6   7         Popeyes NY   Popeyes
7   8  Wallmart LA 90210  Wallmart
8   9               Aldi       NaN
9  10        London Lidl      Lidl

然而,这里的问题是,它在已经标准化的行(大力水手和沃尔玛)上搜索str.contains

如何仅在df['standard'] == NaN的行上运行str.contains,而忽略标准化行

我试过一些非常混乱的东西,但似乎不起作用。我设置了一个掩码,然后在运行str.contains之前使用它:

mask = df['standard'].isna()

df[mask].loc[df[mask].store.str.contains(aldi_regex,na=False), 'standard3'] = 'Aldi'

不起作用。我还尝试了一些更混乱的东西,但没有成功:

df.loc[mask].loc[df.loc[mask].store.str.contains(aldi_regex,na=False), 'standard3'] = 'Aldi'

如何忽略标准化行?不必求助于for循环

我的示例数据帧:

import pandas as pd
import re

df = pd.DataFrame({'id': pd.Series([1, 2, 3, 4, 5, 6, 7, 8, 9, 10],dtype='int64',index=pd.RangeIndex(start=0, stop=10, step=1)), 'store': pd.Series(['McDonalds', 'Lidl', 'Lidl New York 123', 'KFC', 'Slidling Shop', 'Lidi Berlin', 'Popeyes NY', 'Wallmart LA 90210', 'Aldi', 'London Lidl'],dtype='object',index=pd.RangeIndex(start=0, stop=10, step=1)), 'standard': pd.Series([pd.np.nan, pd.np.nan, pd.np.nan, pd.np.nan, pd.np.nan, pd.np.nan, 'Popeyes', 'Wallmart', pd.np.nan, pd.np.nan],dtype='object',index=pd.RangeIndex(start=0, stop=10, step=1))}, index=pd.RangeIndex(start=0, stop=10, step=1))

Tags: storedfnpmasknanlocstandardpd
1条回答
网友
1楼 · 发布于 2024-09-22 14:26:52

How can I ignore the standardized rows? Without resorting to a for loop.

通过筛选检查空值:

df.loc[df['standard'].isnull() & df.store.str.contains(r'\blidl\b', case=False), 'standard'] = 'Lidl'

相关问题 更多 >