PySpark ML LogisticReturnal weightCol是否实现了sampleWeight或classWeight？ - 问答 - Python中文网

PySpark ML LogisticReturnal weightCol是否实现了sampleWeight或classWeight？

2024-10-02 02:33:49 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我正在PySpark ML中定义一个二进制LogisticRegression管道，用于一个很大程度上不兼容的数据集

lr = LogisticRegression(maxIter=10, regParam=0.001, weightCol="weight")

API包含一个weightCol='weight'选项，我想将其用于我的不平衡数据集。Pyspark 2.3.0的文档

weightCol = Param(parent='undefined', name='weightCol', doc='weight column name. If this is not set or empty, we treat all instance weights as 1.0.')

是的，非常冗长

这是样本重量还是类别重量

我在文件的其他地方找不到关于这方面的任何信息

Tags：数据 name 管道定义二进制 ml pyspark weight

1条回答

网友

1楼 · 发布于 2024-10-02 02:33:49

当Spark文档模糊不清时，尤其是在Python方面，您最好的选择通常是转到Scala源代码： https://github.com/apache/spark/blob/992447fb30ee9ebb3cf794f2d06f4d63a2d792db/mllib/src/main/scala/org/apache/spark/ml/classification/LogisticRegression.scala#L491

在这里没有太多挖掘，它看起来像是一个应用于行级别的Double列，因此我将使用示例权重

相关问题更多 >

编程相关推荐

热门问题

热门文章