在将拼花文件写回DataLake时,Gen2正在创建其他文件。你知道吗
示例:
%python
rawfile = "wasbs://xxxx@dxxxx.blob.core.windows.net/xxxx/2019-09-30/account.parquet"
curatedfile = "wasbs://xxxx@xxxx.blob.core.windows.net/xxxx-Curated/2019-09-30/account.parquet"
dfraw = spark.read.parquet(rawfile)
dfraw.write.parquet(curatedfile, mode = "overwrite")
display(dfraw)
提供的文件名(帐户.拼花地板)被记录到创建的文件夹中,而不是创建具有该名称的文件。你知道吗
如何忽略这些附加文件并用提供的名称写入文件。你知道吗
当用户在作业中写入文件时,DBIO将为您执行以下操作。你知道吗
在Spark的save中直接更改文件名是不可能的。你知道吗
Spark使用Hadoop文件格式,它要求对数据进行分区—这就是为什么要使用部件文件。处理后可以很容易地更改文件名,就像在SO线程中一样。你知道吗
您可以参考类似的SO线程,它解决了类似的问题。你知道吗
希望这有帮助。你知道吗
相关问题 更多 >
编程相关推荐