spark中带字符串的特征向量?

2024-10-01 07:38:30 发布

您现在位置:Python中文网/ 问答频道 /正文

当然,我是新手。 我的数据集包含大量列和分类变量。 我想利用特征向量来存储这些分类,并使用VectorIndexer以方便的方式执行从分类到有序和向后的映射。在

所以,我想实现这样简单的事情(pyspark符号):

df = spark.createDataFrame(
    [
      (0, Vectors.dense([0.1, 0.2])),
      (1, Vectors.dense([0.1, 0.2])),
      (2, Vectors.dense([0.2, 1.2])),
      (3, Vectors.dense([0.1, 0.2])),
      (4, Vectors.dense([0.1, 2.2])),
      (5, Vectors.dense([0.1, 0.2]))],
    ["id", "features"]
)

但对于字符串特征:

^{pr2}$

我想Vector类不应该与字符串一起工作,但是我很乐意为您提供一些建议,让它正常工作的最佳方法。在


Tags: 数据字符串利用df方式符号分类事情