计算大Pandas细胞中多个子串的出现

2024-10-02 04:31:11 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一列包含相当长的字符串。每个字符串可能包含也可能不包含子字符串。“h07”、“h06”或“f13”这样的子字符串可能出现在数据帧单元中,也可能不出现。我想计算这些子字符串的外观并将结果添加到新的单元格中。 原始单元格值为

df.iloc[0,0]    
'rfgergerggr H 07 jgjg gjgj H 06 gjhgj  H 06 '. 

程序的结果应该是一个具有

^{pr2}$

我想这应该在结构包含. 但是我在寻找大约50个不同的子串,我无法想象找到它们的好方法。 另外,我认为复杂的lambda可以解决我这里的问题。但不知道如何建造它。在

到目前为止我已经试过了结构包含但它只显示如果子串在那里,我不知道计数。另外,要找到我感兴趣的所有50个子串,我必须打电话结构包含每一次。我认为应该有更好的办法。在


Tags: 数据字符串df结构单元外观子串iloc
1条回答
网友
1楼 · 发布于 2024-10-02 04:31:11

比如:

substrs = [...]
def f(cell_value):
    return {k: v for k, v in ((s, cell_value.count(s)) for s in substrs) if v}
df.column.apply(f)

相关问题 更多 >

    热门问题