如何在PySp中获取列的最后一个值

2024-10-03 09:17:04 发布

您现在位置:Python中文网/ 问答频道 /正文

这个问题很琐碎,但我是PySpark的新成员,即使是简单的任务,我也面临着很多问题。你知道吗

假设我们有一个列为a的数据帧df

我想创建另一个dataframe,它只包含一个最后值为A的列(这里的last value指的是columnna底部的really记录)。你知道吗

我已经试过了

df["A"][-1]但我得到了一个错误。你知道吗

请,如果可能的话,我想为PySpark和pysparksql中的Python代码提供一个解决方案。你知道吗


Tags: 数据代码dataframedfvalue错误记录成员
1条回答
网友
1楼 · 发布于 2024-10-03 09:17:04

请小心订购,因为在pyspark中,数据帧在默认情况下是不订购的。这意味着df.take(1)可能并不总是返回相同的值。你知道吗

这篇文章对此非常清楚。https://issues.apache.org/jira/browse/SPARK-16207

2种解决方案:

  1. 从列中选取任意随机值->;take(1)即可
  2. 你可以使用cd3的函数。你知道吗

相关问题 更多 >