Spark数据帧映射分区

2024-06-14 11:50:04 发布

男 | 程序猿一只，喜欢编程写python代码。

我需要在Spark数据帧上进行分布式计算，调用数据帧块上的一些任意（非SQL）逻辑。我做到了：

def some_func(df_chunk):
    pan_df = df_chunk.toPandas()
    #whatever logic here

df = sqlContext.read.parquet(...)
result = df.mapPartitions(some_func)

不幸的是，这会导致：

AttributeError: 'itertools.chain' object has no attribute 'toPandas'

我希望在每个映射调用中都有spark DataFrame对象，而不是'itertools.chain'。为什么？如何克服这一点？

Tags：数据 chain df sql def some 逻辑 pan

1条回答

网友

1楼 · 发布于 2024-06-14 11:50:04

试试这个：

>>> columns = df.columns
>>> df.rdd.mapPartitions(lambda iter: [pd.DataFrame(list(iter), columns=columns)])

编程相关推荐

java如何从不同的类向jtable添加数据？
apache flink初始化状态导致此错误“java.lang.NullPointerException:Keyed状态只能用于“Keyed流”
java从屏幕调用不同的screen thru按钮
java MySQL数据库用户权限
java JavaFX将边距添加到矩形形状
JavaSpring在集成测试中没有触及ControllerAdvice
java Apache HttpClient POST不适用于实体
安装插件后，java无法在eclipse中找到TestNG选项
web爬虫Java获取web内容跳过中间页以响应到达所需的响应
Java Android Studio libGDX Api 16崩溃

Spark数据帧映射分区

相关问题更多 >

编程相关推荐

热门问题

热门文章

Spark数据帧映射分区

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >