我需要收缩一个数据帧的每两行,并且需要用每个类别两行的平均标记替换Marks列。我正在Azure Databricks上使用Pyspark 2.4.4。你知道我该怎么做吗。我的示例数据框如下所示。你知道吗
+----------+-------+--------+
| Category | Quiz | Marks |
+----------+-------+--------+
| A | 1 | 10 |
| A | 2 | 20 |
| A | 3 | 30 |
| A | 4 | 40 |
| B | 1 | 4 |
| B | 2 | 2 |
| B | 3 | 6 |
| B | 4 | 8 |
+----------+-------+--------+
我的数据帧看起来像这样
+----------+-------+--------+
| Category | QuiZ | Marks |
+----------+-------+--------+
| A | 1 | 15 |
| A | 2 | 35 |
| B | 1 | 3 |
| B | 2 | 7 |
+----------+-------+--------+
In genaral I have 10K categories and 300 quiz and marks for each category
导入库
创建数据帧
如果是偶数,则减少一个测验数字
计算你的最终结果
相关问题 更多 >
编程相关推荐