Azure Databricks将拼花文件写入策展Zon

2024-09-30 00:27:33 发布

您现在位置:Python中文网/ 问答频道 /正文

在将拼花文件写回DataLake时,Gen2正在创建其他文件。你知道吗

示例:

%python
rawfile = "wasbs://xxxx@dxxxx.blob.core.windows.net/xxxx/2019-09-30/account.parquet"
curatedfile = "wasbs://xxxx@xxxx.blob.core.windows.net/xxxx-Curated/2019-09-30/account.parquet"
dfraw = spark.read.parquet(rawfile)
dfraw.write.parquet(curatedfile, mode = "overwrite")
display(dfraw)

enter image description here

提供的文件名(帐户.拼花地板)被记录到创建的文件夹中,而不是创建具有该名称的文件。你知道吗

如何忽略这些附加文件并用提供的名称写入文件。你知道吗


Tags: 文件core名称netwindowsaccountblob拼花
1条回答
网友
1楼 · 发布于 2024-09-30 00:27:33

当用户在作业中写入文件时,DBIO将为您执行以下操作。你知道吗

  • 使用唯一事务id写入的标记文件
  • 将文件直接写入其最终位置。你知道吗
  • 当作业提交时,将事务标记为已提交。你知道吗

在Spark的save中直接更改文件名是不可能的。你知道吗

Spark使用Hadoop文件格式,它要求对数据进行分区—这就是为什么要使用部件文件。处理后可以很容易地更改文件名,就像在SO线程中一样。你知道吗

您可以参考类似的SO线程,它解决了类似的问题。你知道吗

希望这有帮助。你知道吗

相关问题 更多 >

    热门问题