俄语术语抽取

rutermextract的Python项目详细描述


从俄文中检索关键词的图书馆。使用pymorphy2进行形态分析。发展是由图书馆^ ^ ^ a2}的启发,它也做了同样的英语文本。

装置 ^{bq 1}

>使用 ^{bq 2}

所汲取的关键词是以正常的形式出现的,从更重要的词改为不那么重要的词。

  • >自动标签。
  • >基于所获得的关键词计算的文本相似性。

    >调用库

    在调用类

    • ^{tt1}美元的文本。
    • {em1}美元)选项]^{tt2}美元的最大数量的关键词。默认情况下没有限制。
    • {em1}美元{选择]^{tt3}美元^{tt4}美元,如果你需要的话,在其他关键词中的关键词。例如,“编程语言”和“编程语言”。
    • {em1}美元)选项]^{tt5}美元的函数计算出的关键词的权重。这是一个对象类型^{tt6}。默认情况下,关键词是按使用数量排列,然后按单词数量排列。
    • {em1}美元{选择]^{tt7}美元^{tt4}美元,如果调用的结果是一个标准的字符串列表。默认情况下,返回列表类型^{tt6}。
      • 具有下列属性:^{tt10}列表的单词,^{tt11}数的单词,^{tt12}美元)作为一个标准的行的形式,你的朋友,^ ^{tt13}美元的使用量。

        >重量函数的例子 ^{bq 3}
    >依赖
    • Python 2.6+或3.3+。
    • {a1}
    • {a4}用于下文3.4版本。
      >工作质量

      图书馆根据预先设定的规则检索关键词。遗憾的是,这是目前唯一可能的选择,因为俄语没有开放的语法体,它可以用来学习语法模型。

      主要问题:

      1. >不完整的规则。例如,现在不能抽出带有“法律上的小偷”、“党友”等字样的关键词。这一问题可以通过进一步发展图书馆来解决,但仍然不能制定涵盖所有情况的规则。
      2. >在形态分析中的模糊性。现在,它允许选择最可能的方案,在某些情况下,这是不正确的。问题既可以在检索关键词时,也可以在使关键词正常化时表现出来。例如,将从标题中删除“足球俱乐部的前锋”这一短语。
      3. >错误的关键词。所学到的一些短语可能不是真正的关键。文本大小并不总是足以区分对文本重要的词和非重要的词,只基于使用的数量。因此,必须使用第三方模式(如tf-idf)来确定关键词的重要性。
      >反馈

      我很高兴听到关于改进建议或报告在issuesпо почте

      >许可证

      MIT

      欢迎加入QQ群-->: 979659372 Python中文网_新手群

      推荐PyPI第三方库


      热门话题
      CentOS上的java Spring Boot简易应用程序需要很长时间才能启动   java如何检查字符串值是否等于null?   收集器中的java映射值。分组方式()   java需要支持Azure AD B2C webapp集成   java如何加入线程以停止它?   java如何使用意图传递类的对象?   java如何在战争环境中发现CDI生产者?   多模块项目中java奇怪的编译器行为   java如何在web应用程序中管理密码?   java从http服务器、filehandler中删除冗余代码   java使用反射来获取泛型类的字段   java Spring MVC/Hibernate/MySQL 400错误请求错误   给定正整数a的java幂为3   在Java中将元素拆分为不同数量的列表?   java展开折叠窗格