PySpark的Logistic回归接受一个elasticNetParam
参数。如果我把这个参数设为0.2
,它意味着什么?它是指l1
的0.2
和{
另外,我一直在尝试使用sklearn复制PySpark的结果。为此,我使用sklearn的SGDClassifier
。在
这是我用来初始化PySpark Logistic回归模型的参数字典
{'elasticNetParam': 0.41880231596887807,
'regParam': 0.05816730909769129,
'threshold': 0.4011073540317653,
'maxIter': 21.0}
这是我用在sklearn的SGD分类器上的
^{pr2}$这两个参数字典是等价的吗?还是应该将l1_ratio
改为(1-0.41880231596887807)
?在
关于max_iter
,由于训练方法的不同,我考虑将其乘以行数。我知道我不会得到确切的结果,我正在寻找类似的结果。可以接受+/-0.01的差值。但目前,这一差距大约是-0.05,我正在努力弥补这一差距。在
从pyspark ml v2.1.0文档中:
因此,您应该将
l1_ratio
更改为(1-0.41880231596887807)
。在但即便如此,我认为你可能会在pyspark和scikitlearn之间得到不同的结果,因为它们的}参数。在
random_state
和{相关问题 更多 >
编程相关推荐