擅长:python、mysql、java
<p>您好,请发布pandas代码的预期输出以及您从pyspark代码中获得的信息,以便我们可以评估数据集之间的差异。如果没有这一点,就很难具体看到什么不起作用,什么起作用</p>
<p>同时,我只需要看看熊猫的代码,并尝试在pyspark中创建一个类似的代码,这就是我想到的</p>
<pre><code>temp = temp \
.withColumn('mean_cancelled_sub_duration' avg(datediff('cancelledate', 'subscriptionstartdate')).over(spec3) / lit(365)) \
.withColumn('mean_sub_duration', avg(datediff('termenddate', 'subscriptionstartdate')).over(spec3) / lit(365))
</code></pre>