俄语术语抽取
rutermextract的Python项目详细描述
从俄文中检索关键词的图书馆。使用pymorphy2进行形态分析。发展是由图书馆^ ^ ^ a2}的启发,它也做了同样的英语文本。
装置 ^{bq 1}
>使用
^{bq 2}
所汲取的关键词是以正常的形式出现的,从更重要的词改为不那么重要的词。
- >自动标签。
- >基于所获得的关键词计算的文本相似性。
>调用库
在调用类
- ^{tt1}美元的文本。
- {em1}美元)选项]^{tt2}美元的最大数量的关键词。默认情况下没有限制。
- {em1}美元{选择]^{tt3}美元^{tt4}美元,如果你需要的话,在其他关键词中的关键词。例如,“编程语言”和“编程语言”。
- {em1}美元)选项]^{tt5}美元的函数计算出的关键词的权重。这是一个对象类型^{tt6}。默认情况下,关键词是按使用数量排列,然后按单词数量排列。
- {em1}美元{选择]^{tt7}美元^{tt4}美元,如果调用的结果是一个标准的字符串列表。默认情况下,返回列表类型^{tt6}。
>重量函数的例子
^{bq 3}
>依赖
- Python 2.6+或3.3+。
- {a1}
- {a4}用于下文3.4版本。
>工作质量
图书馆根据预先设定的规则检索关键词。遗憾的是,这是目前唯一可能的选择,因为俄语没有开放的语法体,它可以用来学习语法模型。
主要问题:
- >不完整的规则。例如,现在不能抽出带有“法律上的小偷”、“党友”等字样的关键词。这一问题可以通过进一步发展图书馆来解决,但仍然不能制定涵盖所有情况的规则。
- >在形态分析中的模糊性。现在,它允许选择最可能的方案,在某些情况下,这是不正确的。问题既可以在检索关键词时,也可以在使关键词正常化时表现出来。例如,将从标题中删除“足球俱乐部的前锋”这一短语。
- >错误的关键词。所学到的一些短语可能不是真正的关键。文本大小并不总是足以区分对文本重要的词和非重要的词,只基于使用的数量。因此,必须使用第三方模式(如tf-idf)来确定关键词的重要性。
>许可证
MIT
- 项目
标签: