Python rutermextract包_程序模块 - PyPI

俄语术语抽取

rutermextract的Python项目详细描述

从俄文中检索关键词的图书馆。使用pymorphy2进行形态分析。发展是由图书馆^ ^ ^ a2}的启发，它也做了同样的英语文本。

装置 ^{bq 1}

>使用 ^{bq 2}

所汲取的关键词是以正常的形式出现的，从更重要的词改为不那么重要的词。

>自动标签。
>基于所获得的关键词计算的文本相似性。

>调用库

在调用类：

^{tt1}美元的文本。
{em1}美元）选项]^{tt2}美元的最大数量的关键词。默认情况下没有限制。
{em1}美元{选择]^{tt3}美元^{tt4}美元，如果你需要的话，在其他关键词中的关键词。例如，“编程语言”和“编程语言”。
{em1}美元）选项]^{tt5}美元的函数计算出的关键词的权重。这是一个对象类型^{tt6}。默认情况下，关键词是按使用数量排列，然后按单词数量排列。
{em1}美元{选择]^{tt7}美元^{tt4}美元，如果调用的结果是一个标准的字符串列表。默认情况下，返回列表类型^{tt6}。

具有下列属性：^{tt10}列表的单词，^{tt11}数的单词，^{tt12}美元）作为一个标准的行的形式，你的朋友，^ ^{tt13}美元的使用量。

>重量函数的例子 ^{bq 3}

>依赖

Python 2.6+或3.3+。
{a1}
{a4}用于下文3.4版本。

>工作质量

图书馆根据预先设定的规则检索关键词。遗憾的是，这是目前唯一可能的选择，因为俄语没有开放的语法体，它可以用来学习语法模型。

主要问题：

>不完整的规则。例如，现在不能抽出带有“法律上的小偷”、“党友”等字样的关键词。这一问题可以通过进一步发展图书馆来解决，但仍然不能制定涵盖所有情况的规则。
>在形态分析中的模糊性。现在，它允许选择最可能的方案，在某些情况下，这是不正确的。问题既可以在检索关键词时，也可以在使关键词正常化时表现出来。例如，将从标题中删除“足球俱乐部的前锋”这一短语。
>错误的关键词。所学到的一些短语可能不是真正的关键。文本大小并不总是足以区分对文本重要的词和非重要的词，只基于使用的数量。因此，必须使用第三方模式（如tf-idf）来确定关键词的重要性。

>反馈

我很高兴听到关于改进建议或报告在issues或по почте。

>许可证

MIT

欢迎加入QQ群-->： 979659372

rutermextract 0.3

rutermextract的Python项目详细描述

装置 ^{bq 1}

>自动标签。
>基于所获得的关键词计算的文本相似性。

推荐PyPI第三方库

pyPRISM

python-academicmarkdown

firedj

superresolution

nester_gnoban

check_ganglia_metric

SQLAWebtrends

nplook

DoThings

netcdftime

mspgsql

dectate

lalalala

patched_unittest

hy_kernel

导航栏

项目链接

标签

维护者

最新PyPI项目

最新Python常见问题

rutermextract 0.3

rutermextract的Python项目详细描述

装置 ^{bq 1}

>自动标签。>基于所获得的关键词计算的文本相似性。

推荐PyPI第三方库

pyPRISM

python-academicmarkdown

firedj

superresolution

nester_gnoban

check_ganglia_metric

SQLAWebtrends

nplook

DoThings

netcdftime

mspgsql

dectate

lalalala

patched_unittest

hy_kernel

导 航 栏

项目 链接

标 签

维护者

最新PyPI项目

最新Python常见问题

>自动标签。
>基于所获得的关键词计算的文本相似性。

导航栏

项目链接

标签