如何在远程PC上运行HDFS数据的转换逻辑 - 问答 - Python中文网

如何在远程PC上运行HDFS数据的转换逻辑

2024-09-28 23:18:20 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我在我的HDFS中有很大的数据（TBs或PBs），它位于远程PC上。现在，我不想把数据带到转换逻辑（这是不正确和高效的），而是想在存储数据的位置上运行python转换逻辑本身

寻找一些有用的技术，可以用来满足这一要求的想法

我一直尝试的事情：

1）方法1

获取远程PC的SSH连接（其中有HDFS数据），在那里复制python转换逻辑，并在从HDFS获取数据后执行

2）方法2

将HDFS数据加载到apachespark RDDs，该RDDs位于远程PC上，HDFS数据可用，并从另一台PC执行Spark作业

请推荐其他可用于远程逻辑执行的技术

Tags：数据方法远程作业 hdfs 逻辑事情 ssh

1条回答

网友

1楼 · 发布于 2024-09-28 23:18:20

我建议在拥有数据的同一个本地网络中设置一个Spark集群，并在集群中远程运行Spark转换（SSH或远程桌面）。这种设置的优点是：

当数据在网络中传输时，网络延迟将最小化本地同一网络
使用分布式和内存处理引擎（如apachespark）运行转换速度很快

注意：如果回答与您的第二种方法一致，请忽略

相关问题更多 >

编程相关推荐

热门问题

热门文章