我在我的HDFS中有很大的数据(TBs或PBs),它位于远程PC上。现在,我不想把数据带到转换逻辑(这是不正确和高效的),而是想在存储数据的位置上运行python转换逻辑本身
寻找一些有用的技术,可以用来满足这一要求的想法
我一直尝试的事情:
1)方法1
- 获取远程PC的SSH连接(其中有HDFS数据),在那里复制python转换逻辑,并在从HDFS获取数据后执行李>
2)方法2
- 将HDFS数据加载到apachespark RDDs,该RDDs位于远程PC上,HDFS数据可用,并从另一台PC执行Spark作业
请推荐其他可用于远程逻辑执行的技术
Tags:
我建议在拥有数据的同一个本地网络中设置一个Spark集群,并在集群中远程运行Spark转换(SSH或远程桌面)。这种设置的优点是:
当数据在网络中传输时,网络延迟将最小化 本地同一网络
使用分布式和内存处理引擎(如apachespark)运行转换速度很快
注意:如果回答与您的第二种方法一致,请忽略
相关问题 更多 >
编程相关推荐