使用启发式算法将韩文文本分成句子。

kss的Python项目详细描述


韩语分句器

使用启发式算法将韩文文本分成句子。这个算法的灵感来自于金永云(eunggyun kim)jason.eg@kakaocorp.com>;,他是kakao nlp的领导人,也是韩国最杰出的nlp工程师之一。

我从this article开始了这个项目,我们在测试集上取得了最好的结果。当然,它对口头和书面表达都非常有力。

安装

该包列在python包索引(pypi)中,因此您可以使用pip:

$ pip install kss

用法

importksss="회사 동료 분들과 다녀왔는데 분위기도 좋고 음식도 맛있었어요 다만, 강남 토끼정이 강남 쉑쉑버거 골목길로 쭉 올라가야 하는데 다들 쉑쉑버거의 유혹에 넘어갈 뻔 했답니다 강남역 맛집 토끼정의 외부 모습."forsentinkss.split_sentences(s):print(sent)

结果如下所示:

회사 동료 분들과 다녀왔는데 분위기도 좋고 음식도 맛있었어요
다만, 강남 토끼정이 강남 쉑쉑버거 골목길로 쭉 올라가야 하는데 다들 쉑쉑버거의 유혹에 넘어갈 뻔 했답니다
강남역 맛집 토끼정의 외부 모습.

演示

要求

    C++ 11
    • 支持C++11构建的GCC或Clang。
  • Python3

提供的google测试二进制文件是在macos上构建的。

从头开始构建

C++

$ mkdir bld
$ cd bld
$ cmake ..
$ make
$ ./sentsplit

注意:提供的google测试二进制文件仅构建在macos上。因此,不能在linux上构建测试二进制文件。

#include<iostream>#include"sentence_splitter.h"intmain(){std::strings="회사 동료 분들과 다녀왔는데 분위기도 좋고 음식도 맛있었어요 다만, 강남 토끼정이 강남 쉑쉑버거 골목길로 쭉 올라가야 하는데 다들 쉑쉑버거의 유혹에 넘어갈 뻔 했답니다 강남역 맛집 토끼정의 외부 모습.";for(autosent:splitSentences(s)){std::cout<<sent<<std::endl;}return0;}

结果如下所示:

회사 동료 분들과 다녀왔는데 분위기도 좋고 음식도 맛있었어요
다만, 강남 토끼정이 강남 쉑쉑버거 골목길로 쭉 올라가야 하는데 다들 쉑쉑버거의 유혹에 넘어갈 뻔 했답니다
강남역 맛집 토끼정의 외부 모습.

Python

python包装器使用cython实现。您可以通过下面的命令执行生成任务。

$ python setup.py install --record files.txt
or
$ pip install .

卸载

$ xargs rm -rf < files.txt
or
$ pip uninstall kss

PYPI

$ python setup.py sdist
$ twine upload --repository-url https://test.pypi.org/legacy/ dist/*

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java附加两个数组   java如何在Extjs的不同页面中使用相同的存储   java Jung,大顶点的布局重叠,图形出现在奇怪的位置   java如何在Android中通过画布绘制圆?   java验证库设计模式选择   java研磨机未知标记“timedTests”   java Android领域子类实例方法   java使用resteasy/jaxrs从请求负载接收两种类型的数据   缓冲策略Java缓冲策略有时不能正确绘制   java跟踪棋子   密度无关像素如何在java中锐化图像缩略图?   java如何在MongoDB更新查询中编写(或)更新   java A*寻路游戏系统退出问题   java在安卓中读取xml的最佳方式是什么?   通过反射调用的方法的java抑制警告   安卓 java。语言错误:信号11(SIGSEGV),代码10(?),故障地址006e006f   java lombok 1.18.2使用DexBuilderForDebug抛出TransformClasses   java JOptionPane CD对话框按钮?   java只返回json中的一些值,而不是完整实体对象   java包不存在错误,请稍后重试