连接的数据帧上的筛选器在pysp中不起作用

input_frame.show() +----------+----------+---------+ |student_id|name |timestamp| +----------+----------+---------+ | s1|testuser | t1| | s1|sampleuser| t2| | s2|test123 | t1| | s2|sample123 | t2| +----------+----------+---------+ # Assuming t2 > t1 unique_data = input_frame.sort(sf.desc(timestamp))drop_duplicates("student_id") unique_data.show() +----------+----------+---------+ |student_id|name |timestamp| +----------+----------+---------+ | s1|sampleuser| t2| | s2|sample123 | t2| +----------+----------+---------+ input_frame = input_frame.alias('input_frame') unique_frame = unique_frame.alias('unique_frame') joined_data = input_frame.join(unique_data, input_frame["student_id"] == unique_data["student_id"], how="left") joined_data.show() +----------+----------+---------+----------+----------+---------+ |student_id|name |timestamp|student_id|name |timestamp| +----------+----------+---------+----------+----------+---------+ | s1|testuser | t1| s1|sampleuser| t2| | s1|sampleuser| t2| s1|sampleuser| t2| | s2|test123 | t1| s2|sample123 | t2| | s2|sample123 | t2| s2|sample123 | t2| +----------+----------+---------+----------+----------+---------+ duplicate_data = joined_data.filter(input_frame["timestamp"] != unique_data["timestamp"]).select("input_frame.*") duplicate_data.show() +----------+----+---------+ |student_id|name|timestamp| +----------+----+---------+ +----------+----+---------+

2条回答

网友

1楼 · 编辑于 2024-09-25 16:34:16

对于unique_data["timestamp"]，如果您想获取整个列，spark不知道您在谈论哪一行。您可以执行以下操作：

duplicate_data = joined_data.filter((joined_data.timestamp != unique_data.collect()[0]['timestamp'])) 上面写着加入_数据.时间戳不等于唯一\u数据的第一行，[行0][时间戳]。或者您可以遍历每一行唯一的数据，并检查它们是否相等。你知道吗

网友

2楼 · 编辑于 2024-09-25 16:34:16

我们应该在过滤条件中使用别名，因为帧具有相似的列

from pyspark.sql import functions as sf

input_frame = input_frame.alias('input_frame')
unique_frame = unique_frame.alias('unique_frame')

duplicate_data = joined_data.filter(sf.col("input_frame.timestamp") != sf.col("unique_data.timestamp")).select("input_frame.*")
duplicate_data.show()
+     +     +    -+
|student_id|name      |timestamp|
+     +     +    -+
|        s1|testuser  |       t1|
|        s2|test123   |       t1|
+     +     +    -+

相关问题更多 >

编程相关推荐

热门问题

热门文章