文本文档集的谱聚类实现

scluster的Python项目详细描述


Homepage:http://github.com/whym/scluster
Contact:http://whym.org

概述

光谱聚类一种现代聚类技术,被认为是一种有效的图像聚类方法。[1][2]

该软件根据单词包表示法[3]和tf-idf加权法[4]在文档之间查找集群。

[1]Ulrike von Luxburg, A Tutorial on Spectral Clustering, 2006. http://arxiv.org/abs/0711.0189
[2]Chris H. Q. Ding, Spectral Clustering, 2004. http://ranger.uta.edu/~chqding/Spectral/
[3]http://en.wikipedia.org/wiki/Bag_of_words_model
[4]http://en.wikipedia.org/wiki/Tf%E2%80%93idf

要求

需要以下软件。

  • python 2或3
  • 努比
  • scipy

如何使用

  1. 将文档准备为原始文本文件,并将其放在目录中,例如“reuters”。

  2. 准备类别文件。例如,“cats.txt”可能包含:

    14833 palm-oil veg-oil
    14839 ship
    

    这意味着文件'14833'中有'palm oil'和'veg oil'作为 它的类别,和'14839'有'船舶'作为其类别。

  3. 运行:python scluster/clusterer.py cats.txt reusters/ -m kmeans

注释

  • 当你使用Reuters集合时,注意17980可能包含 第10行为非Unicode字符。它应该是这样写的:“世界 经济增长方面的措施…
[5]http://www.daviddlewis.com/resources/testcollections/reuters21578/

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
在IE10中重新加载另一个帧时,internet explorer Java小程序失败/消失   ThreadLocal变量的java性能   java系统。出来println不是打印输出   java从JAXB类获取元素属性   java组织。天啊。科尔巴。包裹。InvalidName:IDL:omg。org/CORBA/ORB/InvalidName:1.0   java有没有办法让非事务连接抛出异常?   java是否有任何方法可以使用JdbcTemplate和查询/条件Fluent API   javajpa级联类型。刷新不工作?   未考虑java Maven依赖关系管理   java MySQL MBR包含抛出MySQLExceptionError的语句   java验证整数并将其设为5位数   java发现了循环依赖的问题   java Hibernate left join fetch到使用@ManyToMany关联映射的softdeleted实体生成无效查询?   JavaH:commandButton多个操作:下载文件并呈现ajax表   Google Contacts API在Java、C#、Python或Ruby中是否有一个Hello World示例?