擅长:python、mysql、java
<p>以下是您正在查看的内容,<code>df.select("ID").distinct().rdd.flatMap(lambda x: x).collect()</code>提供了一个唯一的<code>ID</code>列表,您可以使用该列表<code>filter</code>您的spark数据帧和<code>toPandas()</code>可用于将spark数据帧转换为pandas数据帧</p>
<pre><code>for i in df.select("ID").distinct().rdd.flatMap(lambda x: x).collect():
tmp_df = df.filter(df.ID == i)
user_pd_df = tmp_df.toPandas()
</code></pre>
<p><strong>更新:由于问题已被编辑</strong></p>
<p><code>toPandas()</code>将数据帧中的所有记录收集到驱动程序,并且应该在数据的一小部分上完成。
如果您正试图将巨大的数据帧转换为熊猫,则需要花费大量的时间</p>