PathNotFound错误消息：openFileForRead必须与文件而不是目录一起使用

dfSource = spark \ .read \ .format("com.crealytics.spark.excel") \ .option("Header", "true") \ .option("inferSchema", "true") \ .load(sSourcePath)#.withColumn("SourceFile",F.input_file_name())

1条回答

网友

1楼 · 发布于 2024-09-30 04:30:27

如果需要从一个目录中读取多个Excel文件，则只需迭代这些文件，将每个文件读入一个数据帧，然后合并所有这些数据帧。在DataRicks上，您可以使用dbutils.fs.ls函数列出给定目录中的文件，如下所示：

all_data = None
sSourcePath = "path_to_directory"
for f in dbutils.fs.ls(sSourcePath):
  if not f.isFile or not f.name.endswith(".xlsx"):
    continue
  df = spark \
    .read \
    .format("com.crealytics.spark.excel") \
    .option("Header", "true") \
    .option("inferSchema", "true") \
    .load(f.path)
  if all_data:
    all_data = all_data.union(df)
  else:
    all_data = df

数据帧可能在结构上不兼容，在这种情况下，您可能需要执行一些显式转换，等等

相关问题更多 >

编程相关推荐

热门问题

热门文章

PathNotFound错误消息：openFileForRead必须与文件而不是目录一起使用

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >