擅长:python、mysql、java
<p>对于<code>unique_data["timestamp"]</code>,如果您想获取整个列,spark不知道您在谈论哪一行。您可以执行以下操作:</p>
<p><code>duplicate_data = joined_data.filter((joined_data.timestamp != unique_data.collect()[0]['timestamp']))</code>
上面写着加入_数据.时间戳不等于唯一\u数据的第一行,[行0][时间戳]。或者您可以遍历每一行唯一的数据,并检查它们是否相等。你知道吗</p>