绿色机器的绿色魔法图书馆
green-magic的Python项目详细描述
GreenMagic是一个包含类模型的库,允许用户训练机器学习模型以及可视化大麻菌株数据。它具有将原始大麻菌株数据编码为用于可视化和聚类分析的特征的功能。它包含模型评估的实现和数据探索的方法。
库的主要功能:
- 数据清理
- 请参见无数据集创建
- 可扩展特征提取系统
- 使用somoclu库[1]作为后端,允许“通过并行化快速执行自组织映射:支持openmp和cuda”。
- 地图可视化
- 基于Kmeans和关联传播的集群
- 统计和分布的格式化打印
用法
下面是一个简单的例子。
from green_magic import WeedMaster from green_magic.clustering import ClusteringFactory, DistroReporter, get_model_quality_reporter all_vars = ['type', 'effects', 'medical', 'negatives', 'flavors'] active_vars = ['type', 'effects', 'medical', 'negatives', 'flavors'] wd = 'pd' wm = WeedMaster() dt = wm.create_weedataset(dt_path, wd) dt.use_variables(active_vars) dt.clean() vectors = wm.get_feature_vectors(dt) print(dt) wm.save_dataset(wd) som = wm.map_manager.get_som('toroid.rectangular.30.30.pca') wm.map_manager.show_mmap(som) clf = ClusteringFactory(wm) cls = clf.create_clusters(som, 'kmeans', nb_clusters=10, vars=all_vars, ngrams=1) print(cls) cls.print_map() r = DistroReporter() r.print_distros(cls0, 'type', prec=3) qr = get_model_quality_reporter(wm, wd) print(qr.measure(cls, metric='silhouette')) print(qr.measure(cls, metric='cali-hara'))
安装
该代码在pypi上可用,因此可以通过
$ pip install green_magic
引文
- Peter Wittek,Shi Chao Gao,Ik Soo Lim,Li Zhao(2017年)。somoclu:用于自组织映射的高效并行库。统计软件杂志,78(9),第1-21页。内政部:10.18637/jss.v078.i09。arxiv:1305.1422。