正则表达式，用于根据长度过滤单词或在Python中排除单词

systemstatus get resume # line to exclude systemstatus get idle # line to filter systemstatus get talking # line to filter systemstatus get ringing # line to filter systemstatus get outgoing # line to filter systemstatus get sleeping # line to filter

3条回答

网友

1楼 · 编辑于 2024-06-14 12:52:07

虽然正则表达式功能强大，但实际上并不需要正则表达式，只需拆分、应用和组合即可：

text = """
systemstatus get resume    # line to exclude
systemstatus get idle      # line to filter
systemstatus get talking   # line to filter
systemstatus get ringing   # line to filter
systemstatus get outgoing  # line to filter
systemstatus get sleeping  # line to filter
"""

lines = "\n".join([line for line in text.split("\n") 
                  if line and not "resume" in line])
print(lines)

这就产生了

^{pr2}$

除非您碰巧没有systemstatusresumesystem get idle（意思是resume没有任何单词边界）这样的文本，否则就不需要正则表达式引擎的开销。

时间不同方法（每种10万）产生收益

print(timeit.timeit(noregex, number=10**5))
# 0.28622116599945 s

print(timeit.timeit(regex, number=10**5))
# 0.5753898609982571 s

所以非正则表达式的解只需要一半的时间。在

网友

2楼 · 编辑于 2024-06-14 12:52:07

使用零宽度负前瞻（(?!resume(?:\s|$))）来确保resume不在systemstatus get之后：

^systemstatus get (?!resume(?:\s|$)).*$

Demo

网友

3楼 · 编辑于 2024-06-14 12:52:07

选项1
用re.MULTILINE开关调用re.findall。在

matches = re.findall(r"systemstatus get \b(?:\w{4}|\w{7,8})\b", t, re.M)

它以字符串列表的形式返回每个匹配项。在

正则表达式详细信息

^{pr2}$

因为你的要求，我们这里按字号匹配-

I need something that filters lengths of 4, 7 and 8.

选项2
将多行字符串拆分为单独的行，遍历每一行并调用re.match

matches = []

for line in t.splitlines():
    if re.match(r"systemstatus get \b(?:\w{4}|\w{7,8})\b", line):
        matches.append(line)

相关问题更多 >

编程相关推荐

热门问题

热门文章