Kmeans使用数据帧列

2024-09-19 23:35:27 发布

您现在位置:Python中文网/ 问答频道 /正文

我有这样的想法:

wines = spark.table("dane_nowe_csv")
selected = wines.select("price")

价格是双倍。 问题是如何将此“选定”类型转换为有效类型以用于:

clusters = KMeans.train(selected, 2, maxIterations=10, initializationMode="random")

我今天试着做了很多次,我搜索了几十个主题,总是有一些错误,我有一种感觉,有一些简单的方法可以做到这一点


Tags: csv类型tabletrain价格selectpricespark
1条回答
网友
1楼 · 发布于 2024-09-19 23:35:27
wines = spark.table("dane_nowe_csv")
selected = wines.select("price").map(s => s.getAs[Vector])
clusters = KMeans.train(selected, 2, maxIterations=10,initializationMode="random")

KMeans将rdd作为输入,而不是数据帧或列

相关问题 更多 >