我正在PySpark ML中定义一个二进制LogisticRegression管道,用于一个很大程度上不兼容的数据集
lr = LogisticRegression(maxIter=10, regParam=0.001, weightCol="weight")
API包含一个weightCol='weight'选项,我想将其用于我的不平衡数据集。Pyspark 2.3.0的文档
weightCol = Param(parent='undefined', name='weightCol', doc='weight column name. If this is not set or empty, we treat all instance weights as 1.0.')
是的,非常冗长
这是样本重量还是类别重量
我在文件的其他地方找不到关于这方面的任何信息
当Spark文档模糊不清时,尤其是在Python方面,您最好的选择通常是转到Scala源代码: https://github.com/apache/spark/blob/992447fb30ee9ebb3cf794f2d06f4d63a2d792db/mllib/src/main/scala/org/apache/spark/ml/classification/LogisticRegression.scala#L491
在这里没有太多挖掘,它看起来像是一个应用于行级别的
Double
列,因此我将使用示例权重相关问题 更多 >
编程相关推荐