如何在pyspark 2.3中的二进制问题（BinaryClassificationEvaluator）中为CrossValidator evaluator使用f1score

2条回答

网友

1楼 · 编辑于 2024-09-29 21:22:50

如果可以使用Spark v3.0+，最简单的方法是使用F-measure by label度量并指定标签（并将beta设置为1）：

evaluator = MulticlassClassificationEvaluator(metricName='fMeasureByLabel', metricLabel=1, beta=1.0)

但由于您仅限于v2.3，因此您可以

重新实现交叉验证程序功能pyspark.mllib.evaluation.MulticlassMetrics通过label方法具有fMeasure。请参阅example以获取参考
将度量从BinaryClassificationEvaluator更改为areaUnderPR，这是一种“模型的优点”度量，应该可以为您完成这项工作（重新平衡标签）。这个blogpost比较F1和AUC-PR

网友

2楼 · 编辑于 2024-09-29 21:22:50

您可以为此创建一个类。我公司的spark 2.4也有同样的问题，所以我试着为二元分类制作一个F1分数评估器。我必须为新类指定.evaluate和.isLargerBetter方法。以下是我尝试使用this数据集时的示例代码：

class F1BinaryEvaluator():

    def __init__(self, predCol="prediction", labelCol="label", metricLabel=1.0):
        self.labelCol = labelCol
        self.predCol = predCol
        self.metricLabel = metricLabel

    def isLargerBetter(self):
        return True

    def evaluate(self, dataframe):
        tp = dataframe.filter(self.labelCol + ' = ' + str(self.metricLabel) + ' and ' + self.predCol + ' = ' + str(self.metricLabel)).count()
        fp = dataframe.filter(self.labelCol + ' != ' + str(self.metricLabel) + ' and ' + self.predCol + ' = ' + str(self.metricLabel)).count()
        fn = dataframe.filter(self.labelCol + ' = ' + str(self.metricLabel) + ' and ' + self.predCol + ' != ' + str(self.metricLabel)).count()
        return tp / (tp + (.5 * (fn +fp)))


f1_evaluator = F1BinaryEvaluator()

from pyspark.ml.tuning import ParamGridBuilder, CrossValidator
from pyspark.ml.classification import GBTClassifier
gbt = GBTClassifier()
paramGrid = (ParamGridBuilder()
             .addGrid(gbt.maxDepth, [3, 5, 7])
             .addGrid(gbt.maxBins, [10, 30])
             .addGrid(gbt.maxIter, [10, 15])
             .build())
cv = CrossValidator(estimator=gbt, estimatorParamMaps=paramGrid, evaluator=f1_evaluator, numFolds=5)

cvModel = cv.fit(train)
cv_pred = cvModel.bestModel.transform(test)

简历过程运行没有问题，尽管我不知道性能如何。我还尝试将evaluator与sklearn.metrics.f1_score进行比较，结果接近

from sklearn.metrics import f1_score
print("made-up F1 Score evaluator : ", f1_evaluator.evaluate(cv_pred))
print("sklearn F1 Score evaluator : ", f1_score(cv_pred.select('label').toPandas(), cv_pred.select('prediction').toPandas()))

made-up F1 Score evaluator :  0.9363636363636364
sklearn F1 Score evaluator :  0.9363636363636363

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何在pyspark 2.3中的二进制问题（BinaryClassificationEvaluator）中为CrossValidator evaluator使用f1score

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >