Python中文
首页
教程
问答
标签
搜索
登录
注册
使用PySp在ArrayType列中按项分组
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>我有Pyspark数据帧,模式如下</p> <pre><code>root |-- id: string (nullable = true) |-- address: string (nullable = true) |-- phone_list: array (nullable = true) | |-- element: string (containsNull = true) </code></pre> <p>示例:</p> <pre><code>id address phone_list 1 HaNoi [ 012346789, 032145698, 0565622253 ] 2 Singapore [ 012346789, 069855633 ] 3 Moscow [ 023466466, 069855633 ] 4 Tokyo [ 044656611, 061316561 ] </code></pre> <p>您可以看到,id 1与id 2(012346789)有一个共同的电话号码,id 2与id 3(069855633)有一个共同的电话号码,因此我想创建新的dataframe来将这些id分组在一起。 它看起来像:</p> <pre><code>id address phone_list 1 [ HaNoi , Singapore, Moscow ] [ 012346789, 032145698, 0565622253, 069855633, 023466466 ] 2 [ Tokyo ] [ 044656611, 061316561 ] </code></pre> <p>有人知道提示或解决方法吗?你知道吗</p>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>在你的情况下我会做的是</p> <pre><code>df= pyspark.sql('''select id, address, phone_number from table_name as tb LATERAL VIEW EXPLODE(tb.phone_list)as phone_number ''') </code></pre> <p>我会按电话号码分组!你知道吗</p>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
区分轴上的像素大小
3 回答
区分过度拟合与良好预测
7 回答
区分通过POST接收的数据并在Cherrypy中获取
4 回答
区分重写和重载
9 回答
区分金贾二号的类型
2 回答
区别:IF IN和IF==python
5 回答
区别:list.append()与incrementequal?
10 回答
区别:创建在启动wx应用程序时不“阻止”控制台的脚本
4 回答
区别于python中的命令行和CGI
1 回答
区别关系
2 回答
区别是什么APIClient.enforce\ csrf\检查以及APIClient.handler.enforce\ csrf\ u检查
1 回答
区块.draw()未在python空闲模式下工作
4 回答
区块链API调用输出对象名称而不是内容
8 回答
区块链nonce值随负载变化
1 回答
区块链Python语法错误(Snakecoin)
5 回答
区块链不连接到服务器和矿工
2 回答
区块链信息钱包支票支付员
8 回答
区块链和区块链密码错误
7 回答
区块链尝试向Transaction字典添加键/值以创建区块链
2 回答
区域:IOError:[Errno 22]无效模式('w')或filenam
8 回答