Python中文
首页
教程
问答
标签
搜索
登录
注册
基于列合并两个spark数据帧
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>我有两个数据帧,我需要合并基于一列(员工代码)。请注意,dataframe大约有75列,所以我提供了一个示例数据集来获取一些建议/示例解决方案。我使用的是databricks,数据集是从S3读取的。在</p> <p>以下是我的两个数据帧:</p> <pre><code>DATAFRAME - 1 |-----------------------------------------------------------------------------------| |EMP_CODE |COLUMN1|COLUMN2|COLUMN3|COLUMN4|COLUMN5|COLUMN6|COLUMN7|COLUMN8|COLUMN9| |-----------------------------------------------------------------------------------| |A10001 | B | | | | | | | | | |-----------------------------------------------------------------------------------| DATAFRAME - 2 |-----------------------------------------------------------------------------------| |EMP_CODE |COLUMN1|COLUMN2|COLUMN3|COLUMN4|COLUMN5|COLUMN6|COLUMN7|COLUMN8|COLUMN9| |-----------------------------------------------------------------------------------| |A10001 | | | | | C | | | | | |B10001 | | | | | | | | |T2 | |A10001 | | | | | | | | B | | |A10001 | | | C | | | | | | | |C10001 | | | | | | C | | | | |-----------------------------------------------------------------------------------| </code></pre> <p>我需要合并基于EMP_代码的2个数据帧,基本上根据EMP_代码将dataframe1与dataframe2连接起来。当我做连接时,我得到了重复的列,我正在寻找一些帮助。在</p> <p>预期的最终数据帧:</p> ^{pr2}$ <p>dataframe1中有3行emp_代码A10001,dataframe2中有1行。所有数据都应该合并为一条记录,没有任何重复的列。在</p> <p>多谢了</p>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>如果两个df都有join key的列名,可以使用下面的代码</p> <pre><code>df1.join(df2, "EMP_CODE") </code></pre>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
(编辑)背景2+均值漂移跟踪?
10 回答
(网络爬虫)如何从新闻网站获取新闻段落的文本
10 回答
(置换)列表的唯一组合
3 回答
(美丽的soap4,)AttributeError:“非类型”对象没有属性“获取文本”
4 回答
(聊天室)使用套接字通常只允许一个地址(协议/网络地址/端口)
3 回答
(自动)在Pycharm/Python中的=后缩进
10 回答
(自动Py到Exe和Python)找不到“googleapipythonclient”发行版,该发行版是应用程序所必需的
7 回答
(自动操作)write()和do for循环的Odoo问题
1 回答
(自定义)百分位MSE损失函数
2 回答
(自定义用户)createsuperuser TypeError:hasattr():属性名必须是字符串
6 回答
(节点)警告:检测到可能的EventEmitter内存泄漏。添加了11个消息侦听器。使用emitter.setMaxListeners()增加limi
1 回答
(若变量中有字符串)语句未筛选出数据
10 回答
(英语、Perl、Python、Ruby)在代码片段的基础上进行比较?
1 回答
(范围(1,36),7)和+条件下的所有组合
9 回答
(范围(3),范围(3))值错误:要解压缩的值太多(预期为2)
7 回答
(蟒蛇) 平均分配数字
3 回答
(行、列):数据帧的值
6 回答
(行、列)形式的最小值
8 回答
(解决)导入PYBID11/C++编译模块不工作
4 回答
(记忆有效)将“排序”作为生成器实现
7 回答