HDFSPyCOMPSs是一个API,它允许PyCOMPSs并行读取HDFS文件。
hdfs-pycompss的Python项目详细描述
集成:PyCOMPSs和HDFS
此版本提供的抽象与 java版本提供的。请阅读Java版本 在继续之前。在
如何安装HDFSPyCOMPSs模块
该模块在PyPi上提供
$ pip3 install hdfs-pycompss
安装后,需要设置一些环境变量:
- HADOOP_HOME:已安装HADOOP发行版的根目录。通常有lib/native/libhdfs.so. 在
- JAVA_HOME:安装javasdk的位置。在
- 类路径:必须包含Hadoop jar
因为comps不会将所有环境变量复制到所有worker,所以在/etc/environment中设置这些变量非常重要。在
如何使用API的示例(不使用StorageAPI)
defwordcount(blk,word):fromhdfspycompss.blockimportBlockdata=Block(blk).read_block()...returnresultdefmain():importhdfspycompss.hdfsimportHDFSdfs=HDFS(host='localhost',port=9000)HDFS_BLOCKS=dfs.find_blocks('/input.data')nFrag=len(HDFS_BLOCKS)result=[{}forfinrange(nFrag)]forf,blkinenumerate(HDFS_BLOCKS):result[f]=wordcount(blk,'word')...
- 项目
标签: