SparkException：Chisquare检验期望因子

from pyspark.ml.feature import ChiSqSelector selector = ChiSqSelector(numTopFeatures=1, featuresCol="features",outputCol="features2", labelCol="label") result = selector.fit(dfa1).transform(dfa1) result.show()

1条回答

网友

1楼 · 发布于 2024-09-28 23:43:04

正如您在error msg中看到的，您的features列在vector中包含超过10000个不同的值，看起来它们是连续的而不是分类的，ChiSq只能处理10k个类别，您不能增加这个值。你知道吗

  /**
   * Max number of categories when indexing labels and features
   */
  private[spark] val maxCategories: Int = 10000

在这种情况下，可以使用VectorIndexer和.setMaxCategories()参数<；10k来准备数据。您可以尝试其他方法来准备数据，但在向量中不同值的计数大于10k之前，该方法将不起作用

编程相关推荐

java Sonarqube测试覆盖率过滤器（jacoco）
java演示文稿将被取消，因为自创建以来显示度量已更改
java为什么Omnifaces Websocket<o:socket>不能与Websphere 9一起使用？
我试图读取java中的xml，但在我的系统中出现了一个错误
java异步支持未启用，即使默认情况下应该启用
java getThreadHandler方法无法从HandlerThread实例访问
带成员函数的多线程Java启动线程
java jar非法参数
java以编程方式注册@Component注释类
正则表达式如何在java中查找字符串中的长双精度数

相关问题更多 >

编程相关推荐

热门问题

热门文章

SparkException：Chisquare检验期望因子

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >