HDFSPyCOMPSs是一个API,它允许PyCOMPSs并行读取HDFS文件。

hdfs-pycompss的Python项目详细描述


集成:PyCOMPSs和HDFS

此版本提供的抽象与 java版本提供的。请阅读Java版本 在继续之前。在

如何安装HDFSPyCOMPSs模块

该模块在PyPi上提供

    $ pip3 install hdfs-pycompss

安装后,需要设置一些环境变量:

  • HADOOP_HOME:已安装HADOOP发行版的根目录。通常有lib/native/libhdfs.so. 在
  • JAVA_HOME:安装javasdk的位置。在
  • 类路径:必须包含Hadoop jar
^{pr2}$

因为comps不会将所有环境变量复制到所有worker,所以在/etc/environment中设置这些变量非常重要。在

如何使用API的示例(不使用StorageAPI)

defwordcount(blk,word):fromhdfspycompss.blockimportBlockdata=Block(blk).read_block()...returnresultdefmain():importhdfspycompss.hdfsimportHDFSdfs=HDFS(host='localhost',port=9000)HDFS_BLOCKS=dfs.find_blocks('/input.data')nFrag=len(HDFS_BLOCKS)result=[{}forfinrange(nFrag)]forf,blkinenumerate(HDFS_BLOCKS):result[f]=wordcount(blk,'word')...

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
在glassfish3服务器上上载应用程序文件(ords.war)时发生java部署错误   java如何更改Elasticsearch上的别名值?   java如何使用Xpath读取更多XSD模式?   java使用jstl在两个jsp之间访问值   java将控制台输出转换为PDF文件   java在循环后没有得到任何结果,几乎完成   java运行的程序无法适应变化   java 安卓 RecyclerView添加新项目将回收移至列表顶部   将字符串转换为日期时的java偏移量   导入包的java问题   java gl。glScalef()隐藏gl。glDrawArrays()绘图   java在读取URL时没有协议异常   javascript Nashorn错误与某些函数有关