如何在远程PC上运行HDFS数据的转换逻辑

2024-09-28 23:18:20 发布

您现在位置:Python中文网/ 问答频道 /正文

我在我的HDFS中有很大的数据(TBs或PBs),它位于远程PC上。现在,我不想把数据带到转换逻辑(这是不正确和高效的),而是想在存储数据的位置上运行python转换逻辑本身

寻找一些有用的技术,可以用来满足这一要求的想法

我一直尝试的事情:

1)方法1

  • 获取远程PC的SSH连接(其中有HDFS数据),在那里复制python转换逻辑,并在从HDFS获取数据后执行

2)方法2

  • 将HDFS数据加载到apachespark RDDs,该RDDs位于远程PC上,HDFS数据可用,并从另一台PC执行Spark作业

请推荐其他可用于远程逻辑执行的技术


Tags: 数据方法远程作业hdfs逻辑事情ssh
1条回答
网友
1楼 · 发布于 2024-09-28 23:18:20

我建议在拥有数据的同一个本地网络中设置一个Spark集群,并在集群中远程运行Spark转换(SSH或远程桌面)。这种设置的优点是:

  • 当数据在网络中传输时,网络延迟将最小化 本地同一网络

  • 使用分布式和内存处理引擎(如apachespark)运行转换速度很快

注意:如果回答与您的第二种方法一致,请忽略

相关问题 更多 >