Python中文
首页
教程
问答
标签
搜索
登录
注册
如何从单个RDD向中添加包含2个RDD的列,然后根据PySp中的日期数据进行行聚合
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>我在PySpark中有两个<code>RDDs</code>:</p> <p><strong>RDD1:</strong></p> <pre><code>[(u'2013-01-31 00:00:00', u'a', u'Pab', u'abc', u'd'),(u'2013-01-31 00:00:00', u'a', u'ab', u'abc', u'g'),.....] </code></pre> <p><strong>RDD2:</strong></p> ^{pr2}$ <p>两个<code>RDDs</code>具有相同的编号或行。现在我要做的是从RDD1中获取每一行中的所有列(从<code>unicode</code>转换为正常<code>string</code>)和RDD2中每行的第二列(从<code>unicode string</code>转换为<code>float</code>),并用它形成一个新的RDD。因此,新的RDD将如下所示:</p> <p><strong>RDD3:</strong></p> <pre><code>[('2013-01-31 00:00:00', 'a', 'Pab', 'abc', 'd',42.0),('2013-01-31 00:00:00', 'a', 'ab', u'abc', 'g',98.0),.....] </code></pre> <p>完成后,我想用第1列中的<code>date</code>值对新的<code>RDD3</code>中每一行的最后一个值(浮点值)进行<code>aggregation</code>。对于<code>date</code>是<code>2013-01-31 00:00:00</code>的所有行,应该添加它们的最后一个数值。在</p> <p>在PySpark中我该怎么做呢?在</p>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>对于问题的第一部分,即将两个RDD组合成一个,其中每一行都是一个7的元组,您可以这样做:</p> <pre><code>rdd3 = rdd1.zip(rdd2).map(lambda ((a,b,c,d,e), (f,g)): (a,b,c,d,e,f,g)) </code></pre> <p>我不确定你最终需要什么,只是日期和第二个值的总和吗?如果是,则不需要所有值:</p> ^{pr2}$
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
当启用身份验证时,超过一定大小的http发布失败
6 回答
当呈现Flask温度时,bokeh图为空
8 回答
当呈现模板时,如何引用sqlalchemy中的自定义字段?
2 回答
当周围有更多相同类型的标记时,如何从一个标记中提取数据
6 回答
当周数跨越多个y时,如何使用Pandas groupby week
6 回答
当呼唤django和python提示时
3 回答
当命令`Brew installPython@2`然后出现错误“Theme error”。如何解决?
9 回答
当命令[1]不存在时,用户输入命令以列出超出范围的索引
2 回答
当命令/启动被发送到bot时,bot应该删除发送给组的标签;但是bot没有
5 回答
当命令lin执行时,导入datetime会在Python脚本中引发ModuleNotFound“math”
10 回答
当命令中提到Bot时,Bot发送其前缀
2 回答
当命令位于DM中时,Python Discord.py bot将角色分配给服务器中的用户
9 回答
当命令在discord.py中缺少必需的参数时,如何显示消息
4 回答
当命令在多个不同的服务器上处于活动状态时,如何在discord.py上使用while循环
7 回答
当命令在提示符下成功运行时,Python subprocess.check_输出产生错误
7 回答
当命令提示时自动按键按回车键
7 回答
当命令提示符意外关闭时,如何访问python虚拟环境?
2 回答
当命令提示符给出导入错误时,当我尝试运行服务器python文件时,需要进行什么更改?
10 回答
当命令有双引号时,如何从python运行windows命令行命令
3 回答
当命令的一部分来自用户inpu时在linux服务器上执行命令的安全方法
5 回答