使用启发式算法将韩文文本分成句子。
kss的Python项目详细描述
韩语分句器
使用启发式算法将韩文文本分成句子。这个算法的灵感来自于金永云(eunggyun kim)jason.eg@kakaocorp.com>;,他是kakao nlp的领导人,也是韩国最杰出的nlp工程师之一。
我从this article开始了这个项目,我们在测试集上取得了最好的结果。当然,它对口头和书面表达都非常有力。
安装
该包列在python包索引(pypi)中,因此您可以使用pip:
$ pip install kss
用法
importksss="회사 동료 분들과 다녀왔는데 분위기도 좋고 음식도 맛있었어요 다만, 강남 토끼정이 강남 쉑쉑버거 골목길로 쭉 올라가야 하는데 다들 쉑쉑버거의 유혹에 넘어갈 뻔 했답니다 강남역 맛집 토끼정의 외부 모습."forsentinkss.split_sentences(s):print(sent)
结果如下所示:
회사 동료 분들과 다녀왔는데 분위기도 좋고 음식도 맛있었어요
다만, 강남 토끼정이 강남 쉑쉑버거 골목길로 쭉 올라가야 하는데 다들 쉑쉑버거의 유혹에 넘어갈 뻔 했답니다
강남역 맛집 토끼정의 외부 모습.
演示
要求
- 支持C++11构建的GCC或Clang。
- Python3
提供的google测试二进制文件是在macos上构建的。
从头开始构建
C++
$ mkdir bld
$ cd bld
$ cmake ..
$ make
$ ./sentsplit
注意:提供的google测试二进制文件仅构建在macos上。因此,不能在linux上构建测试二进制文件。
#include<iostream>#include"sentence_splitter.h"intmain(){std::strings="회사 동료 분들과 다녀왔는데 분위기도 좋고 음식도 맛있었어요 다만, 강남 토끼정이 강남 쉑쉑버거 골목길로 쭉 올라가야 하는데 다들 쉑쉑버거의 유혹에 넘어갈 뻔 했답니다 강남역 맛집 토끼정의 외부 모습.";for(autosent:splitSentences(s)){std::cout<<sent<<std::endl;}return0;}
结果如下所示:
회사 동료 분들과 다녀왔는데 분위기도 좋고 음식도 맛있었어요
다만, 강남 토끼정이 강남 쉑쉑버거 골목길로 쭉 올라가야 하는데 다들 쉑쉑버거의 유혹에 넘어갈 뻔 했답니다
강남역 맛집 토끼정의 외부 모습.
Python
python包装器使用cython实现。您可以通过下面的命令执行生成任务。
$ python setup.py install --record files.txt or $ pip install .
卸载
$ xargs rm -rf < files.txt or $ pip uninstall kss
PYPI
$ python setup.py sdist $ twine upload --repository-url https://test.pypi.org/legacy/ dist/*