如何在pyspark/hadoop中从python复制文件

def write_df_as_parquet_file(df, path, mode="overwrite"): df = df.repartition(1) # join partitions to produce 1 parquet file dfw = df.write.format("parquet").mode(mode) dfw.save(path) def write_df_as_csv_file(df, path, mode="overwrite", header=True): df = df.repartition(1) # join partitions to produce 1 csv file header = "true" if header else "false" dfw = df.write.format("csv").option("header", header).mode(mode) dfw.save(path)

1条回答

网友

1楼 · 发布于 2024-09-27 07:29:01

您可以使用Python的HDFS库之一连接到HDFS实例，然后执行所需的任何操作。在

来自hdfs3文档（https://hdfs3.readthedocs.io/en/latest/quickstart.html）：

from hdfs3 import HDFileSystem
hdfs = HDFileSystem(host=<host>, port=<port>)
hdfs.mv(tmp_folder + "*.parquet", path)

把上面的内容打包成一个函数，就可以开始了。在

注意：我刚才以hdfs3为例。您也可以使用hdfsCLI。在

编程相关推荐

java IntelliJ IDEA CreativeProcess错误=193，%1不是有效的Win32应用程序
在java中返回多个值（字符串和数组）
我们可以使用java驱动程序。在pom类中查找数据？
java是处理请求后数据的有效方法
用于小文件的java音频缓存安卓 studio
使用Java exec的postgresql额外psql命令行参数
java导入语句代码错误
使用服务上传java Android HTTPS文件（从HTTP转换为HTTPS）
启动配置服务器组织时发生java Microservice错误。springframework。靴子上下文财产。绑定绑定结果
swing Java:无法在JFrame中显示图像

相关问题更多 >

编程相关推荐

热门问题

热门文章