PySpark：将列表中的元素分组

2024-09-30 04:39:23 发布

男 | 程序猿一只，喜欢编程写python代码。

期望输出-[（（1,2）、（3,4）、5）]

rdd = sc.parallelize([1,2,3,4,5])
rdd.map(lambda x: ((x[0],x[1]),(x[2],x[3]),x[4])).collect()

但是，我得到了一个错误--

TypeError: 'int' object is not subscriptable

at org.apache.spark.api.python.BasePythonRunner$ReaderIterator.handlePythonException(PythonRunner.scala:456)
at org.apache.spark.api.python.PythonRunner$$anon$1.read(PythonRunner.scala:592)
at org.apache.spark.api.python.PythonRunner$$anon$1.read(PythonRunner.scala:575)
at org.apache.spark.api.python.BasePythonRunner$ReaderIterator.hasNext(PythonRunner.scala:410)
at org.apache.spark.InterruptibleIterator.hasNext(InterruptibleIterator.scala:37)
at scala.collection.Iterator$class.foreach(Iterator.scala:891)

请更正代码。我正在使用Python和Spark

Tags： org api read apache at spark rdd scala

1条回答

网友

1楼 · 发布于 2024-09-30 04:39:23

根据穆罕默德·阿里·贾马维的评论：

“如果希望每行有一个列表，请在构造rdd时传递列表，如rdd=sc.parallelize（[[1,2,3,4,5]]）”

PySpark：将列表中的元素分组

相关问题更多 >

编程相关推荐

热门问题

热门文章

PySpark：将列表中的元素分组

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >