2024-10-03 00:23:10 发布
网友
我有一个文本文件,有英文字符和其他语言字符。 使用下面的代码,我想从这个文件中提取一些不是英语的单词 尤其是朝鲜语(Unicode范围从UTF-8的AC00到D7AF)
在这段代码中有没有办法做到这一点??在
我还需要做点别的吗?在
.... text = f.read() words = re.findall(r'\w+', dataString) f.close() ....
要查找范围从AC00到D7AF的所有字符:
import re L = re.findall(u'[\uac00-\ud7af]+', data.decode('utf-8'))
要查找所有非ascii字:
使用大写\W=匹配非字母数字字符,不包括_。在
\W
_
>>> re.findall('[\W]+', u"# @, ►(Q1)-grijesh b ►((Qf)), "); [u'# @, \u25ba(', u')-', u' ', u' \u25ba((', u')), ']
From:Unicode HOWTO?要读取unicoded文本文件,请使用:
我有个档案:
从Python中读取:
>>> import re >>> import codecs >>> f = codecs.open('file', encoding='utf-8') >>> for l in f: ... print re.findall('[\W]+', l) ... [u'# @, \u25ba(', u')-', u' ', u' \u25ba((', u')),\n'] >>>
读字母单词
>>> f = codecs.open('file', encoding='utf-8') >>> for l in f: ... print re.findall('[^\W]+', l) ... [u'Q1', u'grijesh', u'b', u'Qf']
注意:小\w匹配字母数字字符,包括_。在
\w
要查找范围从AC00到D7AF的所有字符:
要查找所有非ascii字:
^{pr2}$使用大写
\W
=匹配非字母数字字符,不包括_
。在From:Unicode HOWTO?要读取unicoded文本文件,请使用:
^{pr2}$我有个档案:
^{3}$从Python中读取:
读字母单词
注意:小
\w
匹配字母数字字符,包括_
。在相关问题 更多 >
编程相关推荐