带unicode（日语）字符issu的regex python

2条回答

网友
1楼 · 编辑于 2024-09-24 08:38:49

我认为您应该使用这样的正则表达式：
([\p{Hiragana}\p{Katakana}\p{Han}]+)
另请参考this documentation.
编辑：我还测试了它here。在

网友
2楼 · 编辑于 2024-09-24 08:38:49

您可以使用以下代码段来解决此问题：
#!/usr/bin/python # -*- coding: utf-8 -*- import re str = u'[DMSM-8433] 加護亜依 Kago Ai – 加護亜依 vs. FRIDAY' regex = u'[\u3000-\u303f\u3040-\u309f\u30a0-\u30ff\uff00-\uff9f\u4e00-\u9faf\u3400-\u4dbf]+ (?=[A-Za-z ]+–)' p = re.compile(regex, re.U) match = p.sub("", str) print match.encode("UTF-8")
见IDEONE demo
除了# -*- coding: utf-8 -*-声明之外，我还添加了@nhahtdh's character class to detect Japanese symbols。在
注意，match需要“手动”编码为UTF-8字符串，因为python2需要“提醒”我们一直在使用Unicode。在

编程相关推荐

java使用哪种设计模式（主动和被动方法）？
java JSF阻止命令按钮自动回调类构造函数
詹金斯Java独立系统。选择单独的类路径
我需要java方面的帮助
java使用FlowLayout创建一个框架
java将电影文件保存在特定文件夹中
java如何删除所有不必要的分号（在块的末尾）？
java在iPOJO元数据中动态地“从”更改
数据库可以保存从http读取的zip文件并直接将其保存到数据库，而无需在java中物理创建它
java生成随机数，将其添加到数组中，然后使用气泡排序对其进行排序

相关问题更多 >

编程相关推荐

热门问题

热门文章