Python中文
首页
教程
问答
标签
搜索
登录
注册
pyspark根据列值删除重复行
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>我有一个<strong>Pypark RDD</strong>。我希望<strong>仅当“column 1”和“column 2”在下一行中匹配</em>时消除重复。数据如下所示:</p> <pre><code>2,10482422,0.18 2,10482422,0.4 2,10482423,0.15 2,10482423,0.43 2,10482424,0.18 2,10482424,0.49 2,10482425,0.21 2,10482425,0.52 2,10482426,0.27 2,10482426,0.64 2,10482427,0.73 </code></pre> <p>在上面的示例中,我只希望通过删除其他重复行来为每一行添加一个最大值column three</p> <p>预期产量为:</p> ^{pr2}$ <p>我尝试创建一个数据帧并使用<code>df.dropDuplicates()</code>,但它没有给出预期的答案。如何根据两列来保持RDD中的最大值?在</p> <p>这是一个350 GB的RDD,任何优化建议都将是伟大的。在</p>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>您的回答并非100%明确您是否要使用数据帧,但如果您愿意从您的RDD创建DF,那么您也可以使用以下方法:</p> <pre><code>from pyspark.sql import functions as f df.groupby('column1', 'column2') .agg(f.max(f.col('value').alias('maxval')) </code></pre>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
尽管Python中的所有内容都是引用,为什么Python导师在没有指针的列表中绘制字符串和整数?
7 回答
尽管python中的表达式为false,但循环仍在运行
3 回答
尽管python代码正确,但从nifi ExecuteScript处理器获取语法错误
2 回答
尽管Python在Neovim中工作得很好,但插件不能识别Neovim中的Python主机
8 回答
尽管python字典包含了大量的条目,但它并没有增长
8 回答
尽管python说模块存在,为什么我会得到这个消息?
5 回答
尽管setuptools和控制盘是最新的,但无法识别singleversionexternallymanaged
6 回答
尽管stdout和stderr重定向,但未捕获错误消息
7 回答
尽管Tensorboard的事件太大,但Tensorboard的步骤太少了
3 回答
尽管tkinter上的变量已更改,但显示未更改
8 回答
尽管try/except使用Python进行单元测试时出现断言错误
9 回答
尽管URL是sam,但仍会抛出“达到最大重定向”
9 回答
尽管url有效,Pandas仍读取url的\u csv错误
1 回答
尽管while中存在时间延迟,但LINUX线程的CPU利用率为100%(1)
6 回答
尽管x0在范围内,Scipy优化仍会引发ValueError
1 回答
尽管xpath正确,但使用selenium单击链接仍不起作用
8 回答
尽管下载了ffmpeg并设置了路径变量python,但没有后端错误
10 回答
尽管下载了i,但找不到型号“fr”
3 回答
尽管下载了plotnine包,但未获取名为“plotnine”的模块时出错
6 回答
尽管为所有行指定了权重,网格(0)仍不起作用
5 回答