从文档集合中自动提取关键字

Distiller的Python项目详细描述


蒸馏器
==


格式。



要求
----


Distiller使用[自然语言工具包](http://www.nltk.org/)


>您需要下载两个NLtk包:

>;>;导入NLtk
>;>;nltk.downloader()
downloader>;d
下载哪个包(l=list;x=cancel)?
identifier>;maxent_treebank_pos_tagger
downloader>;d
下载哪个包(l=list;x=cancel)?
identifier>;stopwords




installation
----






-


>;distiller.distiller import distiller
>;Distiller=Distiller(数据、目标、选项)



参数
——


\data


json格式的文档集合所在文件的路径。

{
“元数据”:{
“基本URL”:“文档的源URL(如果有)

'文档':[
{
'id':'文档的唯一标识符(如果有的话)',
'正文':'单个文本块中的整个文档正文。',
},…
]
}


文档。

三元组:文档中单词三元组的列表及其被检测为密钥对的频率。

docmap:文档ID到其各自关键字n-grams的映射,以及其他统计信息。

keymap:关键字到它们出现在文档中的文档的映射。



#预处理期间的词干标记
“lemmatize”:false,
“tfidf_cutoff”:0.001,
用于术语freq/doc freq score的截止值
“pos_list”:[“nn”,“nnp”],
“pos white list”用于筛选候选人从候选项中筛选出
}

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
opencv如何在java中将Ipl图像转换为Mat图像   带有Cordova CLI的java Android Studio   用于XML解析的JAXB的java替代方案   java LibGdx如何在保持纵横比的同时调整游戏窗口的大小?   java项目Euler,#1   java将活动中定义的布局更改为xml布局   java获得的位置和纬度分别为0.0和0.0   select语句的java Mybatis内联类型处理程序   使用ViewPager从应用程序中的主活动调用findViewById方法时发生java NullPointerException   java LRU缓存中的pair[]getAll()是什么意思?   sql查询Java不执行   java在IntelliJ中将JAR添加到WEBINF/lib目录的正确过程是什么   java在lucene中索引布尔值的最佳选择是什么?   java Sentry初始化崩溃,尝试查找jdk时出现NoSuchMethod错误。内部的反映反射寄存器方法过滤器