无法使用pyspark ML库对测试数据集进行预测

2024-10-03 17:16:30 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在使用pyspark ML lib开发一个机票价格预测数据集,它包含火车和测试数据集。我已经成功地在火车数据集上实现了我的模型,并预测了价格,即标签列,但不知道如何在测试数据集上应用相同的模型来预测车票的价格

以下代码用于在列车数据集(包含特征和标签列)上训练模型

from pyspark.ml.regression import GBTRegressor

gbt = GBTRegressor(featuresCol="features",labelCol = "Price", maxIter = 10)
gbtModel = gbt.fit(training_data)

predictions_gbt = gbtModel.transform(testing_data)
predictions_gbt.select("features", "Price", "prediction").show()

Tags: 数据模型data价格标签pricepyspark集上