如何在spark rdd中执行虚拟查找

3条回答

网友

1楼 · 编辑于 2024-09-21 03:29:21

您可以使用列表理解：

>>> [(y[1], x[1]) for x in rdd1 for y in rdd2 if x[0] == y[0]]
[('Toy Story (1995)', 3428),
 ('Jumanji (1995)', 2991),
 ('Grumpier Old Men (1995)', 2990)]

网友

2楼 · 编辑于 2024-09-21 03:29:21

如果为了提高性能而处理集群上的大数据，可以使用广播和数据帧操作来完成

df_points = spark.createDataFrame(rdd1, schema=['index', 'points'])
df_movie = spark.createDataFrame(rdd2, schema=['index', 'Movie'])
df_join = df_points.join(broadcast(df_movie), on='index').select("Movie","points")

如果需要，还可以转换回RDD

df_join.rdd.map(list).collect()

网友

3楼 · 编辑于 2024-09-21 03:29:21

使用联接和映射：

rdd1.join(rdd2).map(lambda x: (x[1][1], x[1][0])).collect()
#[('Toy Story (1995)', 3428),
# ('Jumanji (1995)', 2991),
# ('Grumpier Old Men (1995)', 2990)]

编程相关推荐

交换数组中重复值的位置（Java）
java搜索使用百分比匹配Elasticsearch SpringBoot中的文本
java Spring JPA和按输入字段排序
java我在输入CSV时出错了
java如何在RecyclerView中精确显示5项
使用java安全吗。util。servlet中的计时器？
使用Cp1252编码的java比较字符串
javafx打包java桌面应用程序，并引用开源许可证
java Spring和Camel CXF在战争中表现出色
java当EJB客户端失去与应用服务器的连接时，是否存在可以捕获的异常？

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何在spark rdd中执行虚拟查找

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >