使用n语言进行句子检测的问题

2024-09-24 00:21:15 发布

您现在位置:Python中文网/ 问答频道 /正文

我对nltk将其识别为一个句子有异议,因为引号中有感叹号

s = "Donc ce n'est pas non plus de vous dire « Allez absolument ici ! », non."

我试过:

from nltk.tokenize import sent_tokenize
sent_tokenize(s, language='french')

但我得到:

["Donc ce n'est pas non plus de vous dire « Allez absolument ici !", '», non.']

我想知道是否有更好的句子检测方法


Tags: depluspas句子estcenontokenize
1条回答
网友
1楼 · 发布于 2024-09-24 00:21:15

正如下面有人评论的那样,您需要它来处理其他分隔符。不幸的是,您的示例有一个错误!无论您是否找到更好的令牌服务器,它都将自动拆分

我添加了另一个有助于使用多个分隔符的方法

s = "Donc ce n'est pas non plus de vous dire « Allez absolument ici ! », non. hi there this is another sentence"

ss = s.split('.)
ss

["Donc ce n'est pas non plus de vous dire « Allez absolument ici ! », non",
 ' hi there this is another sentence']

也可以对多个分隔符使用re.split

ss = re.split('[!.]',s)
["Donc ce n'est pas non plus de vous dire « Allez absolument ici ",
 ' », non',
 ' hi there this is another sentence']

相关问题 更多 >