Lamonpy,拉丁文POS tager和Python的Lemmatizer
lamonp的Python项目详细描述
< > > Lamon < /c> >(拉丁形态工具,发音/勒m n/)是用C++编写的一个简单的词性标注器和LeMaMeZER。
而Lamonpy是Lamon的Python包。使用Lamonpy可以很容易地获得给定文本中每个单词的引理和标记。在
入门
您可以使用pip轻松安装Lamonpy。(https://pypi.org/project/lamonpy/)
$ pip install --upgrade pip $ pip install lamonpy
支持的操作系统和Python版本包括:
- 使用Python>;=3.5的Linux(x86-64)
- macOS>;=10.13,Python>;=3.5
- Windows 7或更高版本(x86、x86-64),Python>;=3.5
- 其他使用Python>;=3.5的操作系统:需要从源代码进行编译(使用与c++11兼容的编译器)
下面是一个使用Lamonpy分析拉丁语文本的简单示例。在
^{pr2}$标注模型及其精度
拉蒙的标签模型是基于BiLSTM网络训练 Perseus Latin Dependency Treebanks(4000句) 并使用Latina Vivense收集的原始拉丁语语料库(44万句)进行自我训练。在
由于没有可用的标准来评估拉丁语标记语,我们构建了自己的测试集,名为vivens,共900个句子。评价结果如下:
vivens (900 sents) | Perseus (4000 sents) | |||||
---|---|---|---|---|---|---|
lemma | tag | both | lemma | tag | both | |
Lamon | 94.6 | 83.0 | 81.1 | 89.4 | 80.2 | 76.6 |
Lamon (large) | 94.2 | 83.3 | 81.3 | 89.7 | 81.9 | 78.3 |
Lamon (uv.) | 94.4 | 82.6 | 80.7 | 87.7 | 77.9 | 73.8 |
Backoff | 88.1 | 92.4 | ||||
123 POS | 58.1 | 54.8 | 83.8 | 79.6 | ||
CRF POS | 69.1 | 63.4 | 77.3 | 72.9 |
- 拉蒙:基础尺寸(嵌入_尺寸:80,隐藏_尺寸:160)在
- 拉蒙(大):大尺寸(嵌入_尺寸:160,隐藏_尺寸:320)在
- 拉蒙:没有英仙座数据集的大尺寸
- 退后:cltk.lemmatize.latin.backoff.BackoffLatinLemmatizer
- 123位置:cltk.tag.pos.POSTag.tag_ngram_123_backoff
- CRF位置:cltk.tag.pos.POSTag.tag_crf
- 对于计算和123 POS得分和CRF POS,使用回溯的结果。在
由于Lamon和所有cltk的tagger都是用Perseus的数据集进行训练的,所以Perseus的分数对于确认每个模型的实际准确性并不重要。 相反,它表明123 POS和CRF POS对Perseus的数据集过度拟合。在
由于vivens数据集的大小很小,因此此评估的结果可能不准确。 我们计划获取更大的数据集进行评估,并发布数据集以使评估更加准确。在
更大型号
由于pypi的包大小限制,分布式wheel包只包含基本模型。我们提供更大的模型谷歌驱动器链接。在
- 大模型:https://drive.google.com/file/d/1u8LdvD-zKtrj7kDRs6CjQw74ZG6aT8jS/view?usp=sharing
- 大模型(无监督):https://drive.google.com/file/d/1nw8LO_1o0O894gXzgQ7Hx5Fyikvy1w2u/view?usp=sharing
您可以使用这些模型,方法是将模型路径传递给Lamon.\uu init\作为参数。在
from lamonpy import Lamon lamon = Lamon(dict_path='dict.large.bin', tagger_path='tagger.large.bin')
许可证
Lamonpy是根据麻省理工学院许可条款授权的,这意味着您可以将其用于任何合理的目的,并对您生成的所有文档拥有完全的所有权。在
历史
- 0.2.0(2020-10-16)
- 添加了罗马数字的符号。在
- 通过引入联合引理标记层,提高了计算精度。在
- 0.1.0(2020-09-26)
- 《拉蒙皮》的第一版
- 项目
标签: