我用过这两个例子
>>> french_tokenizer=nltk.data.load('tokenizers/punkt/french.pickle')
>>> french_tokenizer.tokenize('Deux agressions en quelques jours,voilà ce qui a motivé hier matin le débrayage collège franco-britanique deLp')
['Deux agressions en quelques jours,voil\xc3\xa0 ce qui a motiv\xc3\xa9 hier matin le d\xc3\xa9brayage coll\xc3\xa8ge franco-britanique deLp']
>>> port_tokenizer=nltk.data.load('tokenizers/punkt/portuguese.pickle')
>>> port_tokenizer.tokenize('Seguranças dos aeroportos começam greve de cinco dias no sábado')
['Seguran\xc3\xa7as dos aeroportos come\xc3\xa7am greve de cinco dias no s\xc3\xa1bado']
第一个是法语,第二个是法语葡萄牙语。为什么我有这些问题吗?第一个是在
voilà
在Python2.7的命令行中键入unicode时,最好使用
u'...'
:要获取单词标记,请使用
word_token
:要获取字符串输出而不是字符串列表,请执行以下操作:
在Python2.7中读取unicode文件时:
使用
word_tokenize
和PunktSentenceTokenizer
:葡萄牙语:
相关问题 更多 >
编程相关推荐