我有一个AWS EMR Spark cluster(版本EMR-5.25.0)
我需要实现一种通过外部python客户机向spark发出sparksql查询的方法。你知道吗
假设EMR主节点有一个可访问的主机名,并且thrift服务器正在运行,我如何从python设置JDBC连接并发出SQL查询来spark并获取结果?
我如何处理长时间运行的工作?你知道吗
我知道可以使用org.apache.hive.jdbc.HiveDriver
类建立JDBC连接。我想我可以尝试在这个罐子上创建一个python包装器。。。但理想情况下,如果可能的话,我更愿意用python处理连接。既然JDBC是通用的,我就假设存在一些通用的pythonjdbc库,我可以用它来连接spark-thrift服务器?你知道吗
目前没有回答
相关问题 更多 >
编程相关推荐