在AWS EMR Spark cluster上通过thrift server JDBC从python执行SQL?

2024-10-06 13:15:55 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个AWS EMR Spark cluster(版本EMR-5.25.0)

我需要实现一种通过外部python客户机向spark发出sparksql查询的方法。你知道吗

假设EMR主节点有一个可访问的主机名,并且thrift服务器正在运行,我如何从python设置JDBC连接并发出SQL查询来spark并获取结果?

我如何处理长时间运行的工作?你知道吗

我知道可以使用org.apache.hive.jdbc.HiveDriver类建立JDBC连接。我想我可以尝试在这个罐子上创建一个python包装器。。。但理想情况下,如果可能的话,我更愿意用python处理连接。既然JDBC是通用的,我就假设存在一些通用的pythonjdbc库,我可以用它来连接spark-thrift服务器?你知道吗


Tags: 方法版本服务器awssql客户机节点thrift