当然,我是新手。 我的数据集包含大量列和分类变量。 我想利用特征向量来存储这些分类,并使用VectorIndexer以方便的方式执行从分类到有序和向后的映射。在
所以,我想实现这样简单的事情(pyspark符号):
df = spark.createDataFrame(
[
(0, Vectors.dense([0.1, 0.2])),
(1, Vectors.dense([0.1, 0.2])),
(2, Vectors.dense([0.2, 1.2])),
(3, Vectors.dense([0.1, 0.2])),
(4, Vectors.dense([0.1, 2.2])),
(5, Vectors.dense([0.1, 0.2]))],
["id", "features"]
)
但对于字符串特征:
^{pr2}$我想Vector类不应该与字符串一起工作,但是我很乐意为您提供一些建议,让它正常工作的最佳方法。在
目前没有回答
相关问题 更多 >
编程相关推荐