使用正则表达式创建数据帧子集

2024-09-28 21:32:11 发布

男 | 程序猿一只，喜欢编程写python代码。

我有一个熊猫数据框，看起来像：

>>> df
      product   desc
0        ABCD  desc1
1   ABCD1,XYZ  desc2
2      ABCD1H  desc3
3       ABCD1  desc4
4  ABCD1H,LMN  desc5

我想筛选出具有产品ABCD1或ABCD1 followed by any other product ID但不具有产品ABCD1H的行。如何筛选出这样的行。在上面的示例中，我希望输出为：

>>> df
          product   desc
    1   ABCD1,XYZ  desc2
    3       ABCD1  desc4

这是我迄今为止尝试过的方法，但不起作用

df2 = df.loc[df['product'].str.contains('ABCD1')]

它的结果中还包括ABCD1H，我不希望发生这种情况

Tags：数据 df 产品 product desc abcd xyz desc2

1条回答

网友

1楼 · 发布于 2024-09-28 21:32:11

使用正则表达式“\b”表示分词：

df[df['product'].str.contains(r'ABCD1\b')]

输出：

     product   desc
1  ABCD1,XYZ  desc2
3      ABCD1  desc4