Pandas:在数据帧中搜索星号时出错。例如:最忙的主机['主机']。结构包含('***.肉毒杆菌素.dk')

2024-09-28 17:04:22 发布

您现在位置:Python中文网/ 问答频道 /正文

下面是我的数据帧的样子,您会看到我的数据帧列之一是URL,另一列是时间戳计数。当我运行这个代码时:busiest_hosts[busiest_hosts['host'].str.contains('***.novo.dk')==True]我得到一个错误:error: nothing to repeat at position 0。我认为这是因为我的URL的第一个元素是*。它看起来像是一个python bug(我的python版本是3.x)。如果有人能帮我解决这个问题,我将非常感激。在

enter image description here


Tags: 数据代码truehosturl错误时间计数
1条回答
网友
1楼 · 发布于 2024-09-28 17:04:22

contains假定字符串是一个正则表达式,并将*解释为重复前面的字符或表达式的命令。您想转义*。当你在做的时候,也要避开.。在

busiest_hosts[busiest_hosts['host'].str.contains('\*{3}\.novo\.dk')==True]

演示

^{pr2}$
busiest_hosts[busiest_hosts['host'].str.contains('\*{3}\.novo\.dk')==True]

          host  timestamp
0  ***.novo.dk         16

或者正如OP向我指出的;-),只需关闭regex regex=False

busiest_hosts[busiest_hosts['host'].str.contains('***.novo.dk', regex=False)==True]

相关问题 更多 >