句子边界检测
splitta的Python项目详细描述
概述
请考虑以下文本:
"1月20日,美国前参议员奥巴马成为 数百万美国人参加了就职典礼。"
句点可能不明确,表示 句子,缩写,或两者兼有。句子边界检测 (sbd)任务包括消除时段的歧义,特别是, 是否将每个句点归为句末。在这个例子中, 只有美国结束时的时段才应分类为:
"1月20日,美国前参议员奥巴马成为 数百万美国人参加了就职典礼。"
如果您使用的是sbd系统,它的错误率可能是 1%-3%的英文新闻稿。这里描述的系统实现了 《华尔街日报》语料库中最著名的错误率:0.25%和 布朗语料库(混合体裁)和其他测试的可比错误率 语料库