将流式Hive表分块传输到本地进行计算,然后附加到远程表的操作

2024-10-02 04:30:17 发布

您现在位置:Python中文网/ 问答频道 /正文

我必须使用Libpostal在远程服务器上的配置单元表上执行计算。不幸的是,我不能在这个服务器上安装libposal(也不能安装它的后续Python绑定)。因此,我想知道是否有可能将该表以块的形式传输到本地机器。下面的图表应该有助于解释我的意思:

Data transfer diagram

基本上,我需要从那张表中取出一块(我不能全部取出,因为它太大了),将它本地存储在数据帧中,在本地执行必要的计算,然后将块以新表的形式发送回服务器。然后重复此过程,直到对整个表执行此操作

每个区块都将附加到远程服务器上的一个新表中,该表将在运行时生成(这样每个区块都将附加到同一个表中)

我知道如何单独完成这个过程的每一步。它需要1)到远程服务器的SSH连接,2)取出表的一部分并将其存储在本地。3) 对表执行必要的计算,4)然后将新表附加到我在远程服务器上为此新表所做的任何表中

唯一的问题是2)因为我不确定如何将数据流式传输到本地计算机而不将其保存到文件或类似的东西中。我真的只想把它作为一个数据帧保存在RAM中,对它执行计算,然后清除它并获取下一个块。此外,这需要在循环中运行,直到表完全耗尽

对于这个问题的任何帮助,无论是直接解决这个问题的方法,还是解决在远程服务器上从本地机器运行某些东西的方法,都将不胜感激


Tags: 数据方法服务器机器远程过程图表区块

热门问题