我对nltk将其识别为一个句子有异议,因为引号中有感叹号
s = "Donc ce n'est pas non plus de vous dire « Allez absolument ici ! », non."
我试过:
from nltk.tokenize import sent_tokenize
sent_tokenize(s, language='french')
但我得到:
["Donc ce n'est pas non plus de vous dire « Allez absolument ici !", '», non.']
我想知道是否有更好的句子检测方法
正如下面有人评论的那样,您需要它来处理其他分隔符。不幸的是,您的示例有一个错误!无论您是否找到更好的令牌服务器,它都将自动拆分
我添加了另一个有助于使用多个分隔符的方法
也可以对多个分隔符使用re.split
相关问题 更多 >
编程相关推荐