Python中文
首页
教程
问答
标签
搜索
登录
注册
PySpark:使用从列创建的元组添加新列
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>这里我有一个日期框架,创建如下</p> <pre><code>df = spark.createDataFrame([('a',5,'R','X'),('b',7,'G','S'),('c',8,'G','S')], ["Id","V1","V2","V3"]) </code></pre> <p>看起来像</p> <pre><code>+---+---+---+---+ | Id| V1| V2| V3| +---+---+---+---+ | a| 5| R| X| | b| 7| G| S| | c| 8| G| S| +---+---+---+---+ </code></pre> <p>我想添加一个由V1,V2,V3组成的元组列。</p> <p>结果应该是</p> <pre><code>+---+---+---+---+-------+ | Id| V1| V2| V3|V_tuple| +---+---+---+---+-------+ | a| 5| R| X|(5,R,X)| | b| 7| G| S|(7,G,S)| | c| 8| G| S|(8,G,S)| +---+---+---+---+-------+ </code></pre> <p>我曾尝试使用类似于Python中的syntex,但没有成功:</p> <pre><code>df.withColumn("V_tuple",list(zip(df.V1,df.V2,df.V3))) </code></pre> <p>TypeError:zip参数1必须支持迭代。</p> <p>任何帮助都将不胜感激!</p>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>使用<code>struct</code>:</p> <pre><code>from pyspark.sql.functions import struct df.withColumn("V_tuple", struct(df.V1,df.V2,df.V3)) </code></pre>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
为什么我的神经网络模型的准确性不能在这个训练集上得到提高?
2 回答
为什么我的神经网络模型的权重变化不大?
3 回答
为什么我的神经网络的成本不断增加?
8 回答
为什么我的神经网络的输入pickle文件是19GB?
2 回答
为什么我的神经网络给属性错误?“非类型”对象没有属性“形状”
5 回答
为什么我的神经网络训练这么慢?
4 回答
为什么我的神经网络输出错误?
8 回答
为什么我的神经网络预测适用于MNIST手绘图像时是正确的,而适用于我自己的手绘图像时是不正确的?
2 回答
为什么我的神经网络验证精度比我的训练精度高,而且它们都是常数?
7 回答
为什么我的私人用户间聊天会显示在其他用户的聊天档案中?
6 回答
为什么我的积分的绝对误差估计值大于积分(使用scipy.integrate.nqad)?
7 回答
为什么我的积层回归器得分比它的组件差?
3 回答
为什么我的移动方法不起作用?
3 回答
为什么我的稀疏张量不能转换成张量
3 回答
为什么我的稀疏张量不能转换成张量?
5 回答
为什么我的程序“停止”了?
2 回答
为什么我的程序一直试图占用所有可用的CPU
9 回答
为什么我的程序不使用指定的代理
5 回答
为什么我的程序不工作(python帮助中的反向函数)?
5 回答
为什么我的程序不工作时,我使用多处理模块
6 回答