PySpark：不使用循环将数据帧拆分为多个数据帧

1条回答

网友

1楼 · 发布于 2024-05-03 05:19:57

#initialize spark dataframe
df = sc.parallelize([ (1,1234,282),(1,1396,179),(2,8620,178),(3,1620,191),(3,8820,828) ] ).toDF(["ID","X","Y"])

#get the list of unique ID values ; there's probably a better way to do this, but this was quick and easy
listids = [x.asDict().values()[0] for x in df.select("ID").distinct().collect()]
#create list of dataframes by IDs
dfArray = [df.where(df.ID == x) for x in listids]

dfArray[0].show()
+---+----+---+
| ID|   X|  Y|
+---+----+---+
|  1|1234|282|
|  1|1396|179|
+---+----+---+
dfArray[1].show()
+---+----+---+
| ID|   X|  Y|
+---+----+---+
|  2|8620|178|
+---+----+---+

dfArray[2].show()
+---+----+---+
| ID|   X|  Y|
+---+----+---+
|  3|1620|191|
|  3|8820|828|
+---+----+---+

编程相关推荐

Java中的安卓字节[]操作
java如何使用SeleniumWebDriver自动弹出对话框窗口
运行单黄瓜JVM的java。来自Gradle的功能文件
在Java中使用JTA连接到SSH
eclipse为什么在从SVN签出Ant版本1.3时，Ant java项目本身有很多错误？
java如何获取撇号之间的字符串
java锁在单个线程上作为布尔信号量工作吗？
bluej我可以使用什么代码清除屏幕（java）？
java在单击JButton时更改JPanel图标
java将逗号分隔的字符串转换为不带中间容器的列表

相关问题更多 >

编程相关推荐

热门问题

热门文章

PySpark：不使用循环将数据帧拆分为多个数据帧

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >