我当前正在使用Pyhive
连接到我们的Hiveserver2
,它由Kerberos
验证。在
conn = hive.Connection(host=HIVE_HOST,
port=HIVE_PORT,
database=HIVE_DB,
auth='KERBEROS',
kerberos_service_name="hive")
我主要通过以下查询从这个表中读取数百个标记的时间序列数据(10秒间隔):
^{pr2}$此查询大约需要40分钟才能返回大约100000行,其中有400多个列。这仅仅是15天的数据。最终,我们需要一次提取几个月或几年的数据来进行机器学习。在
我想知道是否有一种方法可以加速pyhive
查询。我知道它是sqlalchemy
的,但是查询是否根据可用资源并行运行?我们有很好的HPC资源可以使用。我怎样才能跑得更快?在
我应该使用PySpark
并运行SparkSQL
进行查询吗?但是,我似乎找不到如何使用PySpark连接到hive2+kerberos。在
目前没有回答
相关问题 更多 >
编程相关推荐