在Python3中尝试使用NLTK中的Toktok单词标记器时
string='&& Test & and L&R '
from nltk.tokenize.toktok import ToktokTokenizer
ToktokTokenizer().tokenize(string)
我得到以下输出:
['&&', 'Test', '&', 'and', 'L&R']
看起来它以一种奇怪的方式逃逸了。 我使用的是NLTK版本3.3和Python3.6.4。你知道吗
猜猜为什么会发生这种情况,以及一种有效的解决方法? 我知道我能把答案通读一遍
[tok.replace("&","&") for tok in tokenized_sentence]
但这似乎是一个肮脏的黑客。我想知道是否有一种方法不产生这种效果的第一种方式。你知道吗
正如@snakecharmerb在
&
中提到的,源状态:解决此问题的一种方法是重写
ToktokTokenizer
实例上的字段,例如:输出
相关问题 更多 >
编程相关推荐