有没有一种方法可以用Python加速配置单元查询

2024-09-28 21:55:00 发布

男 | 程序猿一只，喜欢编程写python代码。

我当前正在使用Pyhive连接到我们的Hiveserver2，它由Kerberos验证。在

conn = hive.Connection(host=HIVE_HOST,
                           port=HIVE_PORT,
                           database=HIVE_DB,
                           auth='KERBEROS',
                           kerberos_service_name="hive")

我主要通过以下查询从这个表中读取数百个标记的时间序列数据（10秒间隔）：

^{pr2}$

此查询大约需要40分钟才能返回大约100000行，其中有400多个列。这仅仅是15天的数据。最终，我们需要一次提取几个月或几年的数据来进行机器学习。在

我想知道是否有一种方法可以加速pyhive查询。我知道它是sqlalchemy的，但是查询是否根据可用资源并行运行？我们有很好的HPC资源可以使用。我怎样才能跑得更快？在

我应该使用PySpark并运行SparkSQL进行查询吗？但是，我似乎找不到如何使用PySpark连接到hive2+kerberos。在

Tags：数据 host port kerberos 资源 connection conn pyspark

0条回答

目前没有回答

有没有一种方法可以用Python加速配置单元查询

相关问题更多 >

编程相关推荐

热门问题

热门文章

有没有一种方法可以用Python加速配置单元查询

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >