Spark数据帧与set一起记录

df = {'KeyName': ['col1', 'col2', 'col3'], 'ValueName': ['1, 2, 3, 4', 'Jean, Cecil, Annie, Maurice, Annie, Maurice', 'test, aaa, bbb, ccc,ddd,eee']} df = pd.DataFrame(data=df) print(df) KeyName ValueName 0 col1 1, 2, 3, 4 1 col2 Jean, Cecil, Annie, Maurice, Annie, Maurice 2 col3 test, aaa, bbb, ccc,ddd,eee

1条回答

网友

1楼 · 发布于 2024-09-26 18:02:36

所以我不确定我是否完全理解了您的用例。但是让我们试一下初稿

据我所知，您有一个包含所有数据的第一个文件。以及一个文件检查器，其中包含需要在data foreach列中包含的密钥。并且应该过滤掉数据中存在的其他键

这可以通过初始数据和数据检查器之间的内部联接来完成。如果数据检查器中没有太多的键，Spark应自动广播数据检查器数据帧以进行优化连接

这是代码的初稿，它还没有完全自动化，等待您的第一个问题和评论

首先，让我们导入所需的函数和数据：

from pyspark.sql.functions import col
from pyspark.sql import Window

spark.sql("set spark.sql.caseSensitive=true")

data = (
    spark
    .read
    .format("csv")
    .options(header=True, delimiter="|", maxColumns="100000")
    .load("FakeData.csv")
    .na.drop()
)

data_checker = (
    spark
    .read
    .format("csv")
    .options(header=True, delimiter="|", maxColumns="100000")
    .load("FakeDataChecker.csv")
    .na.drop(subset=["ValueName"])
)

我们根据需要删除空值，您可以使用subset关键字指定所需的列

然后，让我们准备连接数据帧

data_checker_date = data_checker.filter(col("KeyName") == "DATE").select(col("ValueName").alias("date"))
data_checker_location = data_checker.filter(col("KeyName") == "LOCATION").select(col("ValueName").alias("location"))
data_checker_location_id = data_checker.filter(col("KeyName") == "LOCATIONID").select(col("ValueName").alias("locationid"))
data_checker_type = data_checker.filter(col("KeyName") == "TYPE").select(col("ValueName").alias("type"))

我们需要在连接期间为列添加别名，以避免重复的列名。我们在删除列时指定区分大小写的选项，这样就不会删除大写的初始列

最后，我们通过内部连接过滤掉数据检查器中不存在的所有键：

(
    data
    .join(data_checker_date, data.DATE == data_checker_date.date)
    .join(data_checker_location, data.LOCATION == data_checker_location.location)
    .join(data_checker_location_id, data.LOCATIONID == data_checker_location_id.locationid)
    .join(data_checker_type, data.TYPE == data_checker_type.type)
    .drop("date", "location", "locationid", "type")
    .show()
)

在接下来的步骤中，我们可以通过检索列的不同键名（例如：“日期”、“位置”等）来实现自动化，这样我们就不必在将来复制粘贴代码4次或X次

类似于：

from pyspark.sql.functions import collect_set

distinct_keynames = data_checker.select(collect_set('KeyName').alias('KeyName')).first()['KeyName']

for keyname in distinct_keynames:
    etc... implement the logic of chaining joins

首先，让我们导入所需的函数和数据：

然后，让我们准备连接数据帧

最后，我们通过内部连接过滤掉数据检查器中不存在的所有键：

相关问题更多 >

编程相关推荐

热门问题

热门文章