Python中文
首页
教程
问答
标签
搜索
登录
注册
为什么1行数据帧上的collect()使用2000个执行器?
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>这是我能想到的最简单的数据帧。我使用的是PySpark 1.6.1。在</p> <pre><code># one row of data rows = [ (1, 2) ] cols = [ "a", "b" ] df = sqlContext.createDataFrame(rows, cols) </code></pre> <p>所以这个数据框完全可以放在内存中,没有任何文件的引用,在我看来非常微不足道。在</p> <p>但当我收集数据时,它使用了2000个执行器:</p> ^{pr2}$ <p>在收集期间,使用2000个执行器:</p> <pre><code>[Stage 2:===================================================>(1985 + 15) / 2000] </code></pre> <p>然后是预期输出:</p> <pre><code>[Row(a=1, b=2)] </code></pre> <p>为什么会这样?数据帧不应该完全存储在驱动程序的内存中吗?在</p>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>您可以配置执行器的数量。在许多情况下,spark将尽可能多地使用执行器,并且执行时间比限制为少数执行器时要糟糕得多。在</p> <pre><code>conf = SparkConf() conf.set('spark.dynamicAllocation.enabled','true') conf.set('spark.dynamicAllocation.maxExecutors','32') </code></pre>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
如何在python中从数据帧列中删除分类值?
2 回答
如何在python中从数据帧列表中删除引号
3 回答
如何在python中从数据帧创建列表
8 回答
如何在Python中从数据帧创建嵌套的JSON
9 回答
如何在Python中从数据帧显示wordcloud
6 回答
如何在Python中从数据帧的时间戳中删除字符
6 回答
如何在Python中从数据帧绘制简单绘图?
6 回答
如何在python中从数据帧行提取具有特定长度的范围?
5 回答
如何在python中从数据帧设置dict中的值
7 回答
如何在Python中从数据库中获得一个结果
9 回答
如何在python中从数据框中绘制分类条形图
7 回答
如何在Python中从数据框中选择特定细节?
4 回答
如何在python中从数据集中删除unicode
4 回答
如何在python中从数据集中删除某些数值?
7 回答
如何在python中从数据集中选择行
6 回答
如何在Python中从数组中删除元素
6 回答
如何在python中从数组中删除单个倒逗号?
9 回答
如何在python中从数组中删除对象?
1 回答
如何在python中从数组中删除引号
5 回答
如何在python中从数组中删除所有最小值
2 回答