正则表达式在python中的unicode单词/数字之间添加空格

2024-09-29 20:32:17 发布

您现在位置:Python中文网/ 问答频道 /正文

我尝试使用unicodes的基本正则表达式,但我无法让它们处理除传统的A-Z和数字之外的字符串

我所看到的例子来自多种语言,而不是A-Z字母家族的一部分

text = "20किटल"
res = re.sub("^[^\W\d_]+$", lambda ele: " " + ele[0] + " ", text)

Output:
20किटल

第二次尝试:

regexp1 = re.compile('^[^\W\d_]+$', re.IGNORECASE | re.UNICODE)
regexp1.sub("^[^\W\d_]+$", lambda ele: " " + ele[0] + " ", text)

 Output:
 20किटल


Expected output:
**20 किटल**

Tags: lambda字符串textreoutput字母res数字
2条回答

如果我正确理解您的要求,您是否可以尝试以下方法:

# -*- coding: utf-8 -*-

import re

text = '20किटल'
print(re.sub(r'([0-9a-zA-Z_]+)([^\s0-9a-zA-Z_]+)', r'\1 \2', text))

输出:

20 किटल

使用Pypi regex library

#!/usr/bin/env python3
# -*- coding: utf-8 -*-

import regex

text = "20किटल"
pat = regex.compile(r"(?<=\d)(?=\p{L})", re.UNICODE)
res = pat.sub(" ", text)
print res

其中\p{L}代表任何语言中的任何字母

输出:

20 किटल

相关问题 更多 >

    热门问题