正则表达式在python中的unicode单词/数字之间添加空格 - 问答 - Python中文网

正则表达式在python中的unicode单词/数字之间添加空格

2024-09-29 20:32:17 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我尝试使用unicodes的基本正则表达式，但我无法让它们处理除传统的A-Z和数字之外的字符串

我所看到的例子来自多种语言，而不是A-Z字母家族的一部分

text = "20किटल"
res = re.sub("^[^\W\d_]+$", lambda ele: " " + ele[0] + " ", text)

Output:
20किटल

第二次尝试：

regexp1 = re.compile('^[^\W\d_]+$', re.IGNORECASE | re.UNICODE)
regexp1.sub("^[^\W\d_]+$", lambda ele: " " + ele[0] + " ", text)

 Output:
 20किटल


Expected output:
**20 किटल**

Tags： lambda 字符串 text re output 字母 res 数字

2条回答

网友

1楼 · 编辑于 2024-09-29 20:32:17

如果我正确理解您的要求，您是否可以尝试以下方法：

# -*- coding: utf-8 -*-

import re

text = '20किटल'
print(re.sub(r'([0-9a-zA-Z_]+)([^\s0-9a-zA-Z_]+)', r'\1 \2', text))

输出：

20 किटल

网友

2楼 · 编辑于 2024-09-29 20:32:17

使用Pypi regex library

#!/usr/bin/env python3
# -*- coding: utf-8 -*-

import regex

text = "20किटल"
pat = regex.compile(r"(?<=\d)(?=\p{L})", re.UNICODE)
res = pat.sub(" ", text)
print res

其中\p{L}代表任何语言中的任何字母

输出：

20 किटल

相关问题更多 >

编程相关推荐

热门问题

热门文章