如何修复pysp中的“Container exited with a non-zero exit code 143”错误

from pyspark.ml.feature import Normalizer from pyspark.mllib.linalg.distributed import IndexedRow, IndexedRowMatrix normalizer = Normalizer(inputCol="features", outputCol="norm") data = normalizer.transform(transformed_df) data = index_df(data) mat = IndexedRowMatrix( data.select("id", "norm")\ .rdd.map(lambda row: IndexedRow(row.id, row.norm.toArray()))).toBlockMatrix() dot = mat.multiply(mat.transpose()) indexed_dot = dot.toIndexedRowMatrix() indexed_rdd = indexed_dot.rows df = indexed_rdd.toDF()

1条回答

网友

1楼 · 发布于 2024-09-28 01:25:21

在使用yarn logs -applicationId <applicationId> -containerId <containerId>调查日志后，问题似乎来自于一个不断失败的任务。Spark实现了容错，任务被重复，导致我的工作人员的磁盘空间不足（超过90%）。节点变得不正常，作业最终失败。在

不过，这项任务为什么失败仍然是个谜。如果我知道那里发生了什么，我会更新的。在

相关问题更多 >

编程相关推荐

热门问题

热门文章