在sparksqlapi中访问RDD的最佳实践是什么?

2024-09-29 23:16:29 发布

您现在位置:Python中文网/ 问答频道 /正文

在使用pyspark的sqlapi时,我有时会看到有人建议访问底层RDD来执行转换。Spark在这方面的用意是什么?他们说在spark3.0中rddapi将被删除,那么现在编写的所有代码是否都应该避免使用底层RDD,无论是形式还是未来的可比性?你知道吗


Tags: 代码建议形式sparkpysparkrdd底层sqlapi
1条回答
网友
1楼 · 发布于 2024-09-29 23:16:29

Spark sql和数据帧API是高级API,易于与catalyst optimizer一起使用,即您将在这些API中编写的代码将由其catalyst引擎自动优化。你知道吗

RDD是一个低级api,只能在需要处理高级api无法处理的完全非结构化原始数据的情况下使用。你知道吗

即使使用数据帧和sql编写代码,spark也会自动将其转换为rdd。你知道吗

建议使用高级API编写,因为您可以使用spark catalyst optimizer。如果您将使用rdd进行编写,那么它将不会得到优化,您需要优化您的代码。你知道吗

虽然我不确定RDDAPI是否会在未来被删除,但目前大部分工作都是在数据帧和sql支持方面进行的

相关问题 更多 >

    热门问题