如何将N行分配到X组中，并在PySpark中指定值D？问题的回答

如何将N行分配到X组中，并在PySpark中指定值D？

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我想做什么： 在PySpark中，我试图将N行分配到X个大小相同的组中，并为这些组指定一个特定的值D <ul> <li>每行由属性A、B、C（参考、项目、位置）组成所有A都是唯一的，但不是B&amp；C</li> <li>X是上游声明的常数</li> <li>D是从D1=今天+1到Dx=今天+X的日期</li> <li>组合{B；C}相等的行不应在不同的组（不应拆分同一位置的相同项目并获得相同的日期）</li> </ul> <hr/> 我拥有的（df1）： <pre><code>df1 = spark.createDataFrame([ ('1234','banana','Paris'), ('1235','orange','Berlin'), ('1236','orange','Paris'), ('1237','banana','Berlin'), ('1238','orange','Paris'), ('1239','banana','Berlin'), ], ["A","B","C"]) +----+------+------+ | A| B| C| +----+------+------+ |1234|banana| Paris| |1235|orange|Berlin| |1236|orange| Paris| |1237|banana|Berlin| |1238|orange| Paris| |1239|banana|Berlin| +----+------+------+ </code></pre> 我想要什么（df2）： 例如，当X=3时： <pre><code> +----+------+------+-----+ | A| B| C| D| +----+------+------+-----+ |1234|banana| Paris|date1| |1235|orange|Berlin|date1| |1236|orange| Paris|date2| |1237|banana|Berlin|date3| |1238|orange| Paris|date2| |1239|banana|Berlin|date3| +----+------+------+-----+ </code></pre> 例如，当X=4时： <pre><code> +----+------+------+-----+ | A| B| C| D| +----+------+------+-----+ |1234|banana| Paris|date1| |1235|orange|Berlin|date4| |1236|orange| Paris|date2| |1237|banana|Berlin|date3| |1238|orange| Paris|date2| |1239|banana|Berlin|date3| +----+------+------+-----+ </code></pre> 例如，当X=5时： <pre><code> +----+------+------+-----+ | A| B| C| D| +----+------+------+-----+ |1234|banana| Paris|date1| |1235|orange|Berlin|date4| |1236|orange| Paris|date2| |1237|banana|Berlin|date3| |1238|orange| Paris|date2| |1239|banana|Berlin|date3| +----+------+------+-----+ </code></pre> 注：{B，C}元素的排序可以是随机的 <hr/> 到目前为止我所尝试的： 下面的代码平均分配元素，但不能满足不拆分类似{B；C}组合的条件 <pre><code>>>> w=Window.orderBy('B','C') >>> df2 = df1.withColumn("id",(F.row_number().over(w))%3) >>> df2.show() +----+------+------+---+ | A| B| C| id| +----+------+------+---+ |1237|banana|Berlin| 1| |1239|banana|Berlin| 2| |1234|banana| Paris| 0| |1235|orange|Berlin| 1| |1236|orange| Paris| 2| |1238|orange| Paris| 0| +----+------+------+---+ </code></pre> <hr/>

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

如何将N行分配到X组中，并在PySpark中指定值D？

1 个回答

相关Python问题