如何在pandas DataFrame中找到与正则表达式匹配的实际唯一值

In [1018]: sample Out[1018]: 0 0 warsaw ## -> warsaw 1 krakow ## -> krakow 2 warszawa ## -> warsaw 3 cracovie ## -> krakow 4 warsawa ## -> warsaw 5 krkow ## -> krakow 6 krąków ## -> krakow 7 krakowie ## -> krakow 8 kraków ## -> krakow 9 varşovia ## -> warsaw 10 warschau ## -> warsaw

In [1029]: df.column_a.str.contains(r"\bwar.*") Out[1029]: 0 True 1 False 2 False 3 True 4 False 5 False 6 False 7 False 8 False 9 False 10 False ...

2条回答

网友

1楼 · 编辑于 2024-10-01 19:28:44

使用布尔索引引用document

   In [143] df[df.column_a.str.contains(r'\bwar.*')]
   Out [143]
   0     warsaw
   2   warszawa
   4    warsawa
   10  warschau

如果有空值，请执行以下操作：

^{pr2}$

网友

2楼 · 编辑于 2024-10-01 19:28:44

我现在找到了一种方法来运行搜索，以返回数据帧列中的唯一值。解决方案是extract取而代之的是extract这些值。在

对于这个问题，如上所述，我使用了str.extract()，而不是str.contains()

In [1311]: df.column_a.str.extract(r"\b(war.*)").unique()
Out[1311]: 
array(['warsaw', nan, 'waraszawa', 'warszawskiej', 'warszawy', 'warzawa',
   'warsza', 'warrszawa', 'warzszawa', 'warszawan', 'warszawie',
   'warwszawa', 'warszawski', 'warzno 84-208', 'warasza, wola',
   'warszawskie', 'warzsawa', 'warzno', 'warszawa', 'warszwa', 'warsawa'], dtype=object)

也许有更好的解决办法，但这一个肯定是一个。在

相关问题更多 >

编程相关推荐

热门问题

热门文章