连接的数据帧上的筛选器在pysp中不起作用问题的回答

连接的数据帧上的筛选器在pysp中不起作用

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我有一个包含以下3列的数据帧 <ul> <li>学号</li> <li>姓名</li> <li>时间戳</li> </ul> 一个学生id有多行，名称不同，记录实际更新的时间戳也不同。我想得到两个不同的数据帧。你知道吗 <ul> <li>唯一的\u数据（所有学生id的行以及该学生id的最新时间戳）</li> <li>重复的\u数据（除上述唯一的\u数据行外，输入数据帧中的所有行）</li> </ul> 我有以下生成2个数据帧的代码 <pre><code>input_frame.show() +----------+----------+---------+ |student_id|name |timestamp| +----------+----------+---------+ | s1|testuser | t1| | s1|sampleuser| t2| | s2|test123 | t1| | s2|sample123 | t2| +----------+----------+---------+ # Assuming t2 > t1 unique_data = input_frame.sort(sf.desc(timestamp))drop_duplicates("student_id") unique_data.show() +----------+----------+---------+ |student_id|name |timestamp| +----------+----------+---------+ | s1|sampleuser| t2| | s2|sample123 | t2| +----------+----------+---------+ input_frame = input_frame.alias('input_frame') unique_frame = unique_frame.alias('unique_frame') joined_data = input_frame.join(unique_data, input_frame["student_id"] == unique_data["student_id"], how="left") joined_data.show() +----------+----------+---------+----------+----------+---------+ |student_id|name |timestamp|student_id|name |timestamp| +----------+----------+---------+----------+----------+---------+ | s1|testuser | t1| s1|sampleuser| t2| | s1|sampleuser| t2| s1|sampleuser| t2| | s2|test123 | t1| s2|sample123 | t2| | s2|sample123 | t2| s2|sample123 | t2| +----------+----------+---------+----------+----------+---------+ duplicate_data = joined_data.filter(input_frame["timestamp"] != unique_data["timestamp"]).select("input_frame.*") duplicate_data.show() +----------+----+---------+ |student_id|name|timestamp| +----------+----+---------+ +----------+----+---------+ </code></pre>

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

连接的数据帧上的筛选器在pysp中不起作用

1 个回答

相关Python问题