Spark如何基于模棱两可的名称获取所有相关列

product_no value jvalue ser_no colour A code1. indi3. 100. Amber B code2 indi4. 200 Blue C code3, code 33. indi5 300 Orange D code4 indi6 400 Green

1条回答

网友

1楼 · 发布于 2024-10-01 05:04:49

你的问题似乎有三个部分

发现具有相同逻辑列的所有表，即使确切的列名不同
发现一组数据帧中的所有foreign keys
基于适当的联接键将数据帧集合联接在一起，即使联接键位于每个数据帧的不同列名下

子问题1

首先，我们需要一个方法来检查列名是否与逻辑列匹配。我们将使用它作为过滤器。正则表达式是一种合理的方法，但在本例中，我将简单地列举一组应被视为相同的列名

val productNameColumns = Seq("prod_name", "product_name", "product")

既然您提到了Hive，我假设我们可以使用Spark目录来发现表。我们可以使用如下代码获取所有表中与逻辑列匹配的所有列

import org.apache.spark.sql.functions.{col, lit}

val allTables = spark.catalog.listTables().select("name").as[String].collect

val tableColumns = allTables
    .map { tableName => 
        // If you have many tables, this will start many spark jobs. This may be too slow to be feasible.
        spark.catalog
            .listColumns(tableName)
            .where(col("name").isin(productNameColumns: _*))
            // or `.where(col("name").rlike(some-regex))` if using a regex
            .select(
                lit(tableName).as("table"),
                col("name").as("column")
            )
            // Make sure that we only take 1 column per table. This may not be needed depending on your data.
            .groupBy("table")
            .agg(
                first(col("column")).as("column")
            )
    }
    .reduce(_ union _)
    .as[(String, String)]
    .collect
    .toMap

以上代码假定您只关心当前数据库。如果需要，可以迭代所有数据库

{}图是子问题1的答案。键是表名，值是与“产品名”对应的列名

子问题2

子问题2是外键发现的经典示例。这本身就是一个完整的研究领域I suggest你do some reading 在沿着这条路走之前。这看起来很简单，但实际上很难。当我们开始讨论由多列组成的键

让我们把这一特性放在一边，继续讨论子问题3

子问题3

子问题3最简单的解决方案是标准化您将加入的列名。这很容易，因为我们已经知道这个专栏了解决子问题1后每个数据帧的名称。我们可以在映射上迭代并重命名要加入的列，然后减少加入

我假设了一个"full_outer"连接，因为这样我们就不会丢失任何记录的信息。当然，无论您选择哪种联接类型如果联接键不是所有数据帧的主键（跨行唯一），则可能会出现行爆炸。这很可能会发生不管怎样，都是一个昂贵的数据帧

tableColumns
    .map { case (tableName, columnName) =>
        spark.table(tableName).withColumnRenamed(columnName, "__join_column")
    }
    .reduce { case (accDf, nextDf) =>
        accDf.join(nextDf, Seq("__join_column"), "full_outer")
    }

子问题1

子问题2

子问题3

相关问题更多 >

编程相关推荐

热门问题

热门文章