SPARK 2.2.2连接多个RDD时出现内存不足异常。结果RDD有124列。最佳连接方法是什么？

phone_no circle operator priority1 attribute1 attribute2 attribute3 priority2 attribute1 attribute2 attribute3 123445 delhi airtel 1.0 info1 info2 info3 1.1 info4 info5 info6 987654 bhopal idea 1.1 info1 info2 info3 1.4 info4 info5 info6 123445 delhi airtel 1.3 info1 info2 info3 1.0 info4 info5 info6

phone_no circle operator priority1 attribute1 attribute2 attribute3 priority2 attribute1 attribute2 attribute3 123445 delhi airtel 1.0 info1 info2 info3 1.0 info4 info5 info6 987654 bhopal idea 1.1 info1 info2 info3 1.4 info4 info5 info6

1条回答

网友

1楼 · 发布于 2024-10-05 14:27:46

我可能会使用窗口函数：

from pyspark.sql.window import Window
import pyspark.sql.functions as spf

df = spark.createDataFrame([
    (123, 1, 'a', 2, 'c'),
    (123, 2, 'b', 1, 'd'),
    (456, 3, 'e', 4, 'f')
], ['phone', 'priority1', 'attribute1', 'priority2', 'attribute2'])

w = Window.partitionBy('phone')
df2 = (
    df
    .select(
        'phone',
        spf.first('attribute1').over(w.orderBy('priority1')).alias('attribute1'),
        spf.first('attribute2').over(w.orderBy('priority2')).alias('attribute2'),
    )
)

(
    df2
    .groupby('phone')
    .agg(*[spf.first(c).alias(c) for c in df2.columns if c != 'phone'])
    .toPandas()
)

提供：

   phone attribute1 attribute2
0    123          a          d
1    456          e          f

这是一个练习，让读者将其模板化（例如，使用列表理解）以概括所有属性和优先级。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章