俄语中的java语句检测
我正在使用ApacheOpenNLP库。我正在做一个项目,需要用不同的语言执行几个NLP任务,其中俄语是一个非常重要的任务。但是我不懂俄语,也找不到任何适用于俄语的OpenNLP模型
因此,我能够可靠地执行句子检测的唯一方法是在俄语文本上训练一个句子检测器,并生成一个我稍后将使用的模型。我要分析的文本非常具体,不足以创建有效的模型
因此,我想问是否有人能给我提供一份俄语参考文本,分为足够一般的句子(包含常见的习语、缩写等)。我不知道需要多长时间,因为文档没有指定培训文本的建议大小。然而,我认为也许几百句话就足够了
# 1 楼答案
最后,我接受了第一条评论中建议的文档,加上维基百科上的一些文章,达到了98%的准确率,所以没关系:3
# 2 楼答案
为什么不在“.”上拆分一些给定的文本呢然后自己检查一遍,纠正你看到的任何错误?只需要几百句话,就可能需要和在互联网上找到一样长的时间来制作自己的语料库