在condor集群上运行k-means的包

condor-kmeans的Python项目详细描述


以秃鹰为动力的K-Means实现
----------
<;p align=“center”>;
<;img src=“https://github.com/tansey/condor-k means/blob/master/test/results.png?raw=true“a lt=”example k-means solution“/>;
<;/p>;




此软件包允许您在一个非常大的矢量数据集上运行k-means。你甚至可以将向量流化而不是加载到内存中,只要您可以存储两个向量计数的双倍列表(一个列表用于群集分配ID,一个列表用于每个向量到其群集的距离)。

要群集的向量的csv文件,每行一个向量。一旦安装,您可以简单地运行“k means”命令:

```
kmeans path/to/mydata.csv path/to/save/centroids.csv path/to/save/assignments.csv--num嫒clusters 30--plusplus--stream--condor--condor嫒workers 100--condor嫒username myusername
```

一次超过100份工作。它会将生成的群集质心保存到“centroids.csv”,将生成的矢量保存到群集分配到“assignments.csv”。“--plusplus”命令指定它应该使用k++初始化。`--stream表示将mydata.csv从磁盘流式传输,而不是将其全部加载到内存中。

当前目录用作工作目录。将创建名为“condor”的工作子目录。在每批作业成功完成后,所有临时工作程序文件都会被删除,尽管目录结构会得到维护(如果您愿意,可以稍后使用“rm-rf condor”)。如果其中一个工作进程失败,主进程将抛出一个异常并警告您失败的作业以及在何处查找其输出文件;如果工作进程失败,则不会删除临时文件。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java我有一个(单个)类别和子类别树,现在我想在其中添加项目作为treeNode   java使用ICU将输出数字(字符串)拼写为整数   在Java中,检查字符是否为元音的最佳方法是什么?   如何解决这个问题。println Apache jkenvar SSL_CLIENT_DN从mod_SSL到java、javascript或html?   有没有办法比较两个Java war文件   java spark sql问题:第一个匹配行上的联接表:rank()不工作   数学模型   所有类文件中的java错误:无法解析R   在64位Windows上发送ctrlbreak到java进程,在32位Windows上发送信号   java是什么让spring boot控制台变得多彩?   java在当前时间和下周六之间还有剩余的分钟/小时吗?   java强制从控制台输入有效的If/Else扫描程序   用组成员显示组名的java   java MediaCodec编码dequeueInputBuffer返回信息\u稍后重试\u?   java是否可以为整个struts webapp配置统一的日期格式格式?   java无法更改#vbox:focused上的vbox边框   java如何解析没有标记的JSON对象   java组织。jsoup。选择选择器$SelectorParseException:无法分析查询“”:位于“”的意外标记