2024-06-03 01:04:33 发布
网友
我不知道我为什么收到这个信息
WARN KMeans: The input data is not directly cached, which may hurt performance if its parent RDDs are also uncached.
当我尝试使用SparkKMeans
KMeans
它说我的输入(数据帧)没有被缓存!!在
我试着打印df_零件已缓存我收到了True,这意味着我的数据帧被缓存了,那么为什么Spark仍然警告我这个呢?在
这在Spark 2.2.0中已修复。这是Spark-18356。在
这里的讨论也表明这不是什么大问题,但修复可能会稍微减少运行时间,并避免警告。在
此消息是由o.a.s.mllib.clustering.KMeans生成的,如果不修补Spark代码,您将无法真正了解它。在
o.a.s.mllib.clustering.KMeans
内部o.a.s.ml.clustering.KMeans:
o.a.s.ml.clustering.KMeans
DataFrame
RDD[o.a.s.mllib.linalg.Vector]
缓存DataFrame时,内部使用的RDD不会被缓存。这就是你看到警告的原因。虽然这很烦人,但我不会太担心。在
RDD
这在Spark 2.2.0中已修复。这是Spark-18356。在
这里的讨论也表明这不是什么大问题,但修复可能会稍微减少运行时间,并避免警告。在
此消息是由
o.a.s.mllib.clustering.KMeans
生成的,如果不修补Spark代码,您将无法真正了解它。在内部
o.a.s.ml.clustering.KMeans
:DataFrame
转换为RDD[o.a.s.mllib.linalg.Vector]
。在o.a.s.mllib.clustering.KMeans
。在缓存
DataFrame
时,内部使用的RDD
不会被缓存。这就是你看到警告的原因。虽然这很烦人,但我不会太担心。在相关问题 更多 >
编程相关推荐