一个可定制的关键字提取包。

omterms的Python项目详细描述



Role::Math(Raw)数学(Raw)
:format:html latex














>发现和表示开放式制造相关术语的发现和表示
=====================


=====================================================================================/>``bulent.oz
el@gmail.co
m``
+——+——+


OpenMaker项目部分涵盖了对这项工作的支持:
http://openmaker.eu/


在进一步分析之前进行标准化的文本预处理,可以应用先进的机器学习和/或统计技术进行比较。从这个意义上讲,它提供了一组流水线功能(i)能够检查、组织、删减和合并围绕一个或极少数特定主题或主题的
文本,(ii)从文本中删除
不需要的术语或文字,(iii)标记文本,
(iv)以文本为单位计算术语ts,和(v)当需要时,提取标记化的术语。


本模块的第二个目标是能够将前景语料库或特定语料库与背景语料库或参考语料库进行比较或评分。举例来说,用例可以是探索一个亚文化的语言、一个社区或一个运动,看看该语言的具体使用范围是什么,从而将其自身与通用语言区别开来。f主题或主题,以及
其中每个主题都由一大组文档表示,这些文档
验证了基于标准矩阵分解的
方法的使用,则可以完全跳过此模块的评分选项
。更具体地说,在目标是能够对彼此之间的许多主题或问题进行分类和区分的用例中,如果有足够的数据满足基于NMF、LDA或LSI的方法的
强调假设,那么工具就从ce,python的
`sklearn.decomposition<;http://scikit learn.org/stable/module s/decomposition.html;建议使用非负矩阵因式分解nmf或nnmf>;``uuuuxbr/>包。

它与它们关联的核心与参考背景语料库有关,可以用作其他矩阵分解技术的输入。

代码::bash

pip安装omterms代码::bash

git克隆https://github.com/bulentozel/omterms.git

…代码::bash

cd omterms

…代码::bash

pip安装。


快速使用代码::python

>;>from omterms.interface import*
>;>extract_terms("一些要处理的输入x文本少于3秒。").head()
配置文本清理程序…
提供一个文本。
提取术语…
标记输入文本..
完成。字数:10
清理过程:标记的初始大小=10
由于标点符号和停止符而减少=3。
由于所有数字字数而减少=1
由于短字数而减少=1
由于稀有字数而减少=0
由于部分数字而减少al terms=0
由于不允许符号的项而减少的项=0
此清洗过程中的总项数减少=5
百分比=50%
已完成。
tf term wtf
0 1输入0.2
1 1文本0.2
2 1过程0.2
3 1减去0.2
4 1秒0.2
>;

<;https://github.com/bulentozel/omterms/blob/master/tutorial.ipynb>;`\uuu

——

——
——
——
——


关键字和关键字提取路线图/>改进。

-它使用了一种统计方法,结合了标准化过程
,广泛应用于标准的nlp工作流中。
-在此基线中,它旨在呈现一个可以从


-不同语言
-不同的pr问题域
-有限训练集的单个主题分析

1。总体工作流程简而言之,本笔记本上的工作流程是工作流程目标的第二个阶段,其目的是测量给定外部输入与特定主题、问题或主题的相关性。工作流程的步骤如下。形成一个特定的语料库,其中的语料库由围绕主题的一组
文档组成。语料库可以是

-一组围绕某个问题的博客文章,例如绿色金融
-或一组围绕同一主题的维基百科文章
-或一组围绕绿色金融
的新闻文章,或一组围绕同一问题的推文。

现在我们有了另一个模块,该模块提供了一组关于某个问题的wikipedia文章种子,爬虫程序从文章中抓取文本数据。有关模块的详细信息,请参见scraper
模块。<;https://github.com/bulentozel/openmaker/tree/master/scraping>;`.
该模块的输出是一组以json格式存储在集合中的输入文本。

2。给定一组关于某个主题的文本,一个概念或主题识别出一组术语,这些术语更可能或不太可能出现在关于该主题的讨论中。本模块在此介绍一种用于此目的的简单方法。给定一个更可能出现或表示主题、概念或主题的加权术语列表,输入查询文本测量输入文本与主题/主题/概念的相关性。`在这个
链接中的笔记本
建议今后的工作
——

-将基于比较的评分与基于矩阵的主题建模方法(如nmf、lda、lsi)进行比较和组合。

-使用维基百科本身的术语频率计数语言规范里森在nlp术语中,需要将主题周围的前景语料库与背景语料库进行比较和对比。

-改进前一阶段的语义爬虫,以便能够提高特定语料库的质量


~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

-不要标记所有术语,而是检查关键字短语
与*tf idf*和

-尝试提取名词短语和单词,为此使用
nltk的pos正则表达式模块(speeach的一部分)
分析。
-提取n克,其中n=1,2,3


3。定义和假设
外部参考语料库。然而,应该注意的是,这一假设在该领域存在争议。参见chuang et el.

-假设爬虫用于将语义相关的文档集聚合为单个文档,*tf x
idf*相当于*tf*。如下图所示,我们使用规范化的
版本的*tf*:*nts/ns*


-为了减少由于文档长度
而导致的术语提取问题,我们倾向于使用较少但相对更相关的训练(输入语料库)
。但是,需要注意的是,本文档第1阶段中一篇已确认的wiki文章的爬行深度可以用作关键字相关性/重复性的额外权重。

-我们仅限于术语,而不是n-grams和短语,或者
使用pos可以开发一个基本模型,该模型可以登录不同的语言。


term
~~~


技术学
例如*emacs*

这里的假设是参考语料库是观察一个词出现的语言样本。然后,在特定语料库中对某个术语的观察频率较高/较低,这是在对该主题进行辩论时对术语选择的一个代理指标。

整个特定语料库中术语的UNT是指参考语料库中术语的原始频率计数
-*ns*是指特定语料库中术语的总数
-*nr*是指参考语料库中术语的总数

在参考语料库和特定语料库上进行相同的标记化和后处理,如排除
停止词、屈折词、稀有词等。关于使用提取的关键词或短语预测新文本主题相关性的概念方法的一些思考单个问题,如财务可持续性或与一组问题(如10个基本人类价值观)相对应,需要一组原始分数的标准化及其重新缩放/转换。

需要考虑的因素有:

-**不同的文档长度:**重复关键短语inc的可能性随着输入文本的大小变大,reases。在更具体的术语中,当一个简单地总结了在给定输入文本中检测到的
加权关键短语或单词的得分对文档长度非常敏感时。对于isntance,一篇文章的摘要很可能会在任何问题上得到比整篇文章低得多的分数。


*在其他方法中,这可以通过计算每个
单词分数来解决,其中要二次排序的单词集是表示inpu的标记化和
清理过的单词集。t文本。*

-**主题相关性:**当输入文本的
主题内容彼此不同时,此因素将非常重要。换句话说,这个因素这是一个非常重要的问题,比方说,当一个人想比较个人对民主国家中隐私的角色的看法时,如果这个问题不是以一种统一的方式提出的,即在相同的社会、文化、环境和物质条件下提出的,那么我们假设这个问题在民主国家,调查再次成为首要任务。有可能同一个博客作者有强烈的支持隐私的观点(i)在谈论数据科学时可能不会触及这个问题,(ii)在谈论移动设备时他可能会稍微触及这个问题(iii)在谈论移动设备时他会使用所有关键词和短语潜入主题民主生活中的隐私影响。简言之,当使用任意文本样本进行评分时,有必要抵消输入文本与被调查问题的局部相关性的变化性。


*/>确定正在调查的问题。例如,当我们想衡量一个政治领袖在个人自由和社会保障方面的地位时,或者当我们想将政治领袖的话语描述为一些基本的人类价值时,我们可以采用一些简单的统计方法来抵消这个圆盘的主题相关性。我们或政治人物的演讲,以我们想衡量的为准,一个简单的方法是重新衡量每个子因素的分数,例如从同一演讲中衡量的自由和安全分数,范围从-1到1。这可以简单地通过
取两者的平均值,然后从每个
得分中减去平均值,并将其缩放为-1到1的scala来完成。这样一来,就有可能在不同的话题上使用同一政治人物的多个演讲来评价他或她在自由与安全问题上的立场。*

麦芽酒。考虑到在大多数情况下,潜在因素的正态分布可能不被假定,因此建议采用分位数归一化技术。分位数
归一化对振幅非负
的变量进行排序和排序。然后,这些排名可以缩放到0-1
区间。

-**主观性级别**。这是一组给定问题中每个问题在相关
重要性方面的可变性。例如,许多个人或政治领导人可能会比安全或其他方面更重视个人自由。但问题可能是,要理解一个人比其他人更重视某个问题的程度。因此,如果评分的目的不是为了简单地确定重要性的顺序,那么就需要处理与总体观察结果相关的比较重要性
。可以考虑每个查询文本中观察到的差异。也就是说,可以使用一种简单的统计方法,例如能够相互比较两个或多个查询文本。
建议的方法是(1)使用每个单词的分数估计每个输入文本的变异系数(2)使用每个情况下的估计变异系数重新缩放
上面建议的分位数标准化分数。*


*应用此重新缩放时,例如,Liberty vs Security
变异系数可以作为一种极化测量方法。*

变量
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

当一个人试图使用由这个包生成的分数时,在一组变量上使用
特定的与参考语料库的比较,然后
分数的两个排名以及每个
分数在许多文本中的相关重要性rom应该考虑同一个源。最新研究报告:Kazi Saidul Hasan和Vincent Ng,2014年。"自动关键词提取:最新技术综述"计算语言学协会第52届年会论文集,第1262-1273页。

-调查论文:Sifatullah Siddiqi和Aditi Sharan。文章:关键词和关键词提取技术:文献综述。
国际计算机应用杂志109(2):18-23,2015年1月


-调查论文:Z.A.Merrouni、B.Frikh和B.Ouhbi。自动关键词提取:最新技术综述。2016年第四届ieee信息科学与技术学术讨论会(cist),第306-313页,2016年10月"通过主题分解自动提取关键词"
继续EMNLP'10自然语言处理经验方法会议论文集366-376页

-rake(快速自动关键词提取):Stuart Rose,Dave Engel,
Nick Cramer,还有温迪·考利。从
单个文档中自动提取关键字。文本挖掘,2010年第1-20页。

-textrank-基于图的:rada mihalcea和paul tarau。textrank:
将顺序带入文本。计算语言学协会,
2004。

-stopwords:s.popova、l.kovriguina、d.mouromtsev和i.khodyrev。
关键词提取问题中的stopwords。在第14届会议上,

-语料库相似度-基于关键词频率:adam kilgariff。使用词频表来衡量语料库之间的同质性和相似性。《aclsigdat大型语料库研讨会论文集》,第231-245页,1997年。

-基于关键词的推荐:f.ferraa,n.pudota和c.tasso。
基于关键词的论文推荐系统。在:数字图书馆和
档案馆。斯普林格柏林海德堡,2011年。第14-25页。

-jason chuang,christopher d.manning,jeffrey heer,2012年。"没有不重要单词的混乱:文本的描述性关键短语可视化acm trans。在计算机与人的交互中,19(3),1–29。

+———————————————————————————————————————————————————————————————————————————————————————————————————————————

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java在状态更改时删除TableView条目   Android Java音板代码仅将第一个按钮设置为铃声/etc   java获取SQLSyntaxErrorException:hibernate中不存在表   java如何从不同注释中执行同名方法   java本视频中使用了什么IntelliJ插件(跳转到特定行的提示)?   java试图从Eclipse Marketplace安装Eclipse插件   java JAAS用户组(来自kerberos)   java创建一个可以对字符串/整数数组排序的算法   java/安卓代码中变量的范围。   安卓如何从另一个活动(按钮)JAVA更新recyclerview   java JUnit使用不同输入的相同测试用例   java css和js不适用于我的页面?   Python vs Java循环   游戏中纸牌的等级