在python语言中，提取非英语单词

2条回答

网友

1楼 · 编辑于 2024-10-03 00:23:10

要查找范围从AC00到D7AF的所有字符：

import re

L = re.findall(u'[\uac00-\ud7af]+', data.decode('utf-8'))

要查找所有非ascii字：

^{pr2}$

网友

2楼 · 编辑于 2024-10-03 00:23:10

使用大写\W=匹配非字母数字字符，不包括_。在

>>> re.findall('[\W]+', u"# @,  ►(Q1)-grijesh b  ►((Qf)), ");
[u'# @,  \u25ba(', u')-', u' ', u'  \u25ba((', u')), ']

From:Unicode HOWTO?要读取unicoded文本文件，请使用：

^{pr2}$

我有个档案：

^{3}$

从Python中读取：

>>> import re
>>> import codecs
>>> f = codecs.open('file', encoding='utf-8')
>>> for l in f:
...  print re.findall('[\W]+', l)
... 
[u'# @,  \u25ba(', u')-', u' ', u'  \u25ba((', u')),\n']
>>>

读字母单词

>>> f = codecs.open('file', encoding='utf-8')
>>> for l in f:
...  print re.findall('[^\W]+', l)
... 
[u'Q1', u'grijesh', u'b', u'Qf']

注意：小\w匹配字母数字字符，包括_。在

编程相关推荐

java在输出文件中跟踪基于文本的刽子手游戏
java阻止打印超时异常消息
线程“main”java中的json异常。java上的lang.NullPointerException。伊奥。StringReader<初始化>（未知源）
java在Android上创建交互式等高线图
java如何安装Xugler？
java Microsoft Access with JDBC：如何获取给定字段的“caption”属性？
java如何在使用rich:fileUpload时有多个文件大小限制
java重构代码时切换案例过多
安卓在GAE服务器上用Java导入Weka
java为什么我的while循环不会打断任何可以帮助我的人？

相关问题更多 >

编程相关推荐

热门问题

热门文章

在python语言中，提取非英语单词

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >