pandas数据帧的k-means++聚类

k-means-plus-plus的Python项目详细描述


k-means++在pandas中的实现
==

==[k-means++聚类算法](http://en.wikipedia.org/wiki/k-means%2b%2b)使用[pandas](http://pandas.pydata.org/)。

它比[scikit learn]慢得多(http://scikit learn.org/stable/modules/generated/sklearn.cluster.kmeans.html)。取而代之。

这与python 3不兼容(现在还不兼容)。
*[熊猫](http://pandas.pydata.org/)(显然)。
*[熊猫](http://numpy.org)



*克隆存储库:


*输入新创建的包含repo的文件夹


*并手动运行安装:




----

构造函数参数:

*`data_frame`:表示要群集的数据的pandas数据帧。行表示观察结果,列表示变量。

*`k`:所需的群集数。

*`columns=none`:要对数据进行群集的列名列表。如果未提供此参数,则选择所有列。**注意:您想要集群的**列必须是数字的,并且没有“npim.nAn”值。

*“Max迭代”=“否”:您希望迭代k-均值的最大次数。如果未提供任何值,则迭代将继续,直到达到稳定性(即集群分配在一次迭代和下一次迭代之间不会改变)。

*`appended_column_name=none`:如果此值是用字符串设置的,然后,一个列将被附加到数据中,该列具有给定的名称,其中包含集群分配(从0到“k-1”的整数)。如果未设置此参数,则仍可以通过“clusters”属性访问群集。

查看“examples”文件夹。

todo:
----


*附加功能采用k-means++集群的迭代并通过一致矩阵、Jaccard索引等进行比较。

*给定一个数据帧,实现所谓的[elbow方法](http://en.wikipedia.org/wiki/determining-the-u-number-of-u-clusters-in-u-a-u-data-set-the-u-elbow-u-method)来确定“k”的最佳值。

*~~使之成为一个可以通过pip安装的合适的python模块。~~

*python 3兼容性(可能通过6)。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java无法从组合框中选择值。需要JS替代方案   打印带有规范问题的Java打印程序?   使用Xmodem传输文件内容时的附加ASCII字符的java传输   java JAXB通过socket和流读取器块   java“错误:在类Grad中找不到Main方法,请将Main方法定义为:public static void Main(字符串[]args)”   如何在Java中将图像从彩色转换为黑白(灰度)   java如何使用Google云连接服务器发送上游GCM消息   JAVA中的JSON文件字段交叉点   什么是“搜索:{…}”/Java中正式使用的“中断搜索”语法?   由于明显的类路径冲突导致java ToDiscoverable强制转换错误?   java可以成为一种语言。类文件不能添加到URLClassLoader的urlpath   Android设备上会话管理的java最佳实践   Java8Java上的Google应用程序引擎。开发服务器上的时间不可用?   java Derby数据库导出为单个文件?   java如何让jmeter根据访问日志行中的时间戳进行日志重放   访问EJB分离接口时的java IllegalAccessException   java使用JsonPath在不知道密钥的情况下提取值   java将文件保存到Jersey API中的服务器应用程序目录   jsoup中的java Http异常   java有没有错误?