擅长:python、mysql、java
<p>如果为了提高性能而处理集群上的大数据,可以使用广播和数据帧操作来完成</p>
<pre><code>df_points = spark.createDataFrame(rdd1, schema=['index', 'points'])
df_movie = spark.createDataFrame(rdd2, schema=['index', 'Movie'])
df_join = df_points.join(broadcast(df_movie), on='index').select("Movie","points")
</code></pre>
<p>如果需要,还可以转换回RDD</p>
<pre><code>df_join.rdd.map(list).collect()
</code></pre>