有没有一种方法可以用Python加速配置单元查询

2024-09-28 21:55:00 发布

您现在位置:Python中文网/ 问答频道 /正文

我当前正在使用Pyhive连接到我们的Hiveserver2,它由Kerberos验证。在

conn = hive.Connection(host=HIVE_HOST,
                           port=HIVE_PORT,
                           database=HIVE_DB,
                           auth='KERBEROS',
                           kerberos_service_name="hive")

我主要通过以下查询从这个表中读取数百个标记的时间序列数据(10秒间隔):

^{pr2}$

此查询大约需要40分钟才能返回大约100000行,其中有400多个列。这仅仅是15天的数据。最终,我们需要一次提取几个月或几年的数据来进行机器学习。在

我想知道是否有一种方法可以加速pyhive查询。我知道它是sqlalchemy的,但是查询是否根据可用资源并行运行?我们有很好的HPC资源可以使用。我怎样才能跑得更快?在

我应该使用PySpark并运行SparkSQL进行查询吗?但是,我似乎找不到如何使用PySpark连接到hive2+kerberos。在


Tags: 数据hostportkerberos资源connectionconnpyspark