Python中文
首页
教程
问答
标签
搜索
登录
注册
PySpark:如何在dataframe中为特定列填充值?
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>我有以下示例数据框:</p> <pre><code>a | b | c | 1 | 2 | 4 | 0 | null | null| null | 3 | 4 | </code></pre> <p>我只想替换前两列中的空值-列“a”和“b”:</p> <pre><code>a | b | c | 1 | 2 | 4 | 0 | 0 | null| 0 | 3 | 4 | </code></pre> <p>下面是创建示例数据帧的代码:</p> <pre><code>rdd = sc.parallelize([(1,2,4), (0,None,None), (None,3,4)]) df2 = sqlContext.createDataFrame(rdd, ["a", "b", "c"]) </code></pre> <p>我知道如何使用以下方法替换所有空值:</p> <pre><code>df2 = df2.fillna(0) </code></pre> <p>当我尝试这个,我失去了第三栏:</p> <pre><code>df2 = df2.select(df2.columns[0:1]).fillna(0) </code></pre>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<pre><code>df.fillna(0, subset=['a', 'b']) </code></pre> <p>有一个名为<code>subset</code>的参数来选择列,除非您的spark版本低于1.3.1</p>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
如何提高Djang的410误差
1 回答
如何提高doc2vec模型中两个文档(句子)的余弦相似度?
6 回答
如何提高Docker的日志限制?|[输出已剪裁,达到日志限制100KiB/s]
9 回答
如何提高DQN的性能?
9 回答
如何提高EasyOCR的准确性/预测?
5 回答
如何提高Euler#39项目解决方案的效率?
10 回答
如何提高F1成绩进行分类
4 回答
如何提高FaceNet的准确性
4 回答
如何提高fft处理的精度?
7 回答
如何提高Fibonacci实现对大n的精度?
6 回答
如何提高Flask与psycopg2的连接时间
8 回答
如何提高FosterCauer变换的scipy.signal.invres()的数值稳定性?
7 回答
如何提高gae查询的性能?
7 回答
如何提高GANs用于时间序列预测/异常检测的结果
4 回答
如何提高gevent和tornado组合的性能?
7 回答
如何提高googleappengin请求日志的吞吐量
6 回答
如何提高googlevision文本识别的准确性
7 回答
如何提高groupby/apply效率
3 回答
如何提高Gunicorn中的请求率
5 回答
如何提高G中的文件编码转换
8 回答