Spark：多个rdd的操作

1条回答

网友

1楼 · 发布于 2024-05-01 11:53:01

让我们从创建示例数据开始。我假设所有的id实际上都是字符串，但它不会真正影响进一步的计算。在

rdd1 = sc.parallelize([["000001", "15120001"], ["000002", "15120002"]])

rdd2 = sc.parallelize([
    ["15120001", "600001"], ["15120001", "600002"],
    ["15120002", "601988"]
])

rdd3 = sc.parallelize([
    ["600001", 1.11, 1.12, 1.32, 1.42, 1.51],
    ["600002", 5.12, 5.21, 5.23, 5.21, 5.21],
    ["601988", 52.1, 52.1, 52.2, 52.4, 52.1]
])

接下来让我们将所有RDDs转换为DataFrames：

^{pr2}$

联接数据：

from pyspark.sql.functions import col

combined = (df1
    .join(df2, col("id2") == col("id2_"))
    .join(df3, col("item_id") == col("item_id_")))

和聚合：

from pyspark.sql.functions import avg

exprs = [avg(x).alias(x) for x in feature_names]
aggregated = combined.groupBy(col("id1")).agg(*exprs)
aggregated.show()

## +   +  -+  -+         +  -+  +
## |   id1|  x_0|  x_1|               x_2|  x_3| x_4|
## +   +  -+  -+         +  -+  +
## |000001|3.115|3.165|3.2750000000000004|3.315|3.36|
## |000002| 52.1| 52.1|              52.2| 52.4|52.1|
## +   +  -+  -+         +  -+  +

如果需要，可以将聚合数据转换回RDD：

aggregated.map(tuple).collect()
## [('000001', 3.115, 3.165, 3.2750000000000004, 3.315, 3.36),
##     ('000002', 52.1, 52.1, 52.2, 52.4, 52.1)]

相关问题更多 >

编程相关推荐

热门问题

热门文章

Spark：多个rdd的操作

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >