筛选特定字符串的数据帧

num person cash 0 1 personone 29 1 1 persontwo 81 2 1 personone: 17 3 1 personone 75 4 1 personone and persontwo 62 5 1 personone's friend 55

3条回答

网友

1楼 · 编辑于 2024-05-08 07:15:12

你的问题并不完全清楚。例如，为什么要删除案例personone and persontwo

无论如何，一种方法是创建一个flag变量来标记良好的观察结果，例如

df['flag'] = df.person.str.contains('personone:?$')

然后你简单地求和

df.loc[df.flag == True, 'cash'].sum()

网友

2楼 · 编辑于 2024-05-08 07:15:12

一个选项是匹配可选的\W而不是\b，并强制开始和结束字符串：

people = ["personone", "persontwo"] 
pattern = r"^\W?({})\W?$".format("|".join(people))

s = df["person"].str.extract(pattern,expand=False)

df[s.notna()].groupby(['num',s])['cash'].sum()

输出：

num  person   
1    personone    121
     persontwo     81
Name: cash, dtype: int64

网友

3楼 · 编辑于 2024-05-08 07:15:12

您可以使用^和$来限制匹配：

>>> people = ["personone", "persontwo"]
>>> patt = fr"^({'|'.join(people)}).?$"
>>> (
      df.groupby(df.person.str.extract(patt, expand=False))
        .agg(cash=('cash', 'sum'), num=('num', 'first'))
        .reset_index().reindex(df.columns, axis=1)
    )
   num     person  cash
0    1  personone   121
1    1  persontwo    81

相关问题更多 >

编程相关推荐

热门问题

热门文章

筛选特定字符串的数据帧

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >