擅长:python、mysql、java
<p>如果RDD可以放入内存,则:</p>
<pre><code>rdd.toPandas().to_csv('emails.csv')
</code></pre>
<p>如果不是,请使用<a href="https://github.com/databricks/spark-csv" rel="nofollow">spark-csv</a>作为您的spark版本:</p>
^{pr2}$
<p>在上面的例子中:</p>
<pre><code>rdd=....map(lambda line: line.split(",")).map(lambda line: line(line[0],line[1]))
</code></pre>
<p>你不想:</p>
<pre><code>rdd=....map(lambda line: line.split(",")).map(lambda line: (line[0], line[1]))
</code></pre>