如何正则表达式匹配字节字符串并除去反斜杠之外的标点符号？

2条回答

网友

1楼 · 编辑于 2024-09-27 21:32:34

此方法不使用正则表达式。如果使用正则表达式是必需的，则必须忽略这一点

import string

punc = string.punctuations.encode()

text = b"I love \xf0\x9f\xa7\xb8 so much!" 

clean_text = text.translate(None, punc)

bytes.translate返回bytes或bytearray对象的副本，其中删除可选参数delete中出现的所有字节。因此clean_text变成了b"I love \xf0\x9f\xa7\xb8 so much"

网友

2楼 · 编辑于 2024-09-27 21:32:34

您必须对正则表达式使用r-string，而不是b-string，因此使用b'...'代替r'...'。此外，您不能将正则表达式应用于字节字符串，因此必须首先将其转换为字符串。以下是未更改正则表达式的完整工作代码：

Try it online!

import re
text = b"I love \xf0\x9f\xa7\xb8 so much!"
text = str(text)[2:-1]
text = re.sub(r'[^\w\s\\]', '', text)
print(text)

输出：

I love \xf0\x9f\xa7\xb8 so much

您可能希望使用text.encode('unicode_escape')（它给出了b'I love \\U0001f9f8 so much!'）而不是仅仅使用text.encode()（它给出了b'I love \xf0\x9f\xa7\xb8 so much!'），因为将字符串表示为unicode转义而不是十六进制转义更为正确和可重用

相关问题更多 >

编程相关推荐

热门问题

热门文章