在condor集群上运行k-means的包
condor-kmeans的Python项目详细描述
以秃鹰为动力的K-Means实现
----------
<;p align=“center”>;
<;img src=“https://github.com/tansey/condor-k means/blob/master/test/results.png?raw=true“a lt=”example k-means solution“/>;
<;/p>;
此软件包允许您在一个非常大的矢量数据集上运行k-means。你甚至可以将向量流化而不是加载到内存中,只要您可以存储两个向量计数的双倍列表(一个列表用于群集分配ID,一个列表用于每个向量到其群集的距离)。
要群集的向量的csv文件,每行一个向量。一旦安装,您可以简单地运行“k means”命令:
```
kmeans path/to/mydata.csv path/to/save/centroids.csv path/to/save/assignments.csv--num嫒clusters 30--plusplus--stream--condor--condor嫒workers 100--condor嫒username myusername
```
一次超过100份工作。它会将生成的群集质心保存到“centroids.csv”,将生成的矢量保存到群集分配到“assignments.csv”。“--plusplus”命令指定它应该使用k++初始化。`--stream表示将mydata.csv从磁盘流式传输,而不是将其全部加载到内存中。
当前目录用作工作目录。将创建名为“condor”的工作子目录。在每批作业成功完成后,所有临时工作程序文件都会被删除,尽管目录结构会得到维护(如果您愿意,可以稍后使用“rm-rf condor”)。如果其中一个工作进程失败,主进程将抛出一个异常并警告您失败的作业以及在何处查找其输出文件;如果工作进程失败,则不会删除临时文件。
----------
<;p align=“center”>;
<;img src=“https://github.com/tansey/condor-k means/blob/master/test/results.png?raw=true“a lt=”example k-means solution“/>;
<;/p>;
此软件包允许您在一个非常大的矢量数据集上运行k-means。你甚至可以将向量流化而不是加载到内存中,只要您可以存储两个向量计数的双倍列表(一个列表用于群集分配ID,一个列表用于每个向量到其群集的距离)。
要群集的向量的csv文件,每行一个向量。一旦安装,您可以简单地运行“k means”命令:
```
kmeans path/to/mydata.csv path/to/save/centroids.csv path/to/save/assignments.csv--num嫒clusters 30--plusplus--stream--condor--condor嫒workers 100--condor嫒username myusername
```
一次超过100份工作。它会将生成的群集质心保存到“centroids.csv”,将生成的矢量保存到群集分配到“assignments.csv”。“--plusplus”命令指定它应该使用k++初始化。`--stream表示将mydata.csv从磁盘流式传输,而不是将其全部加载到内存中。
当前目录用作工作目录。将创建名为“condor”的工作子目录。在每批作业成功完成后,所有临时工作程序文件都会被删除,尽管目录结构会得到维护(如果您愿意,可以稍后使用“rm-rf condor”)。如果其中一个工作进程失败,主进程将抛出一个异常并警告您失败的作业以及在何处查找其输出文件;如果工作进程失败,则不会删除临时文件。