擅长:python、mysql、java
<p>我也有类似的问题。问题在于</p>
<pre><code>map(lambda x: ','.join(str(s) for s in x)).saveAsTextFile(....)
</code></pre>
<p>它将把'join'保存为一个字符串,这将隐藏逗号,并且如果您计划使用像pandas df加载这样的分析,这可能是一个令人头痛的问题。所以你的绳子看起来像这样</p>
^{pr2}$
<p>简单的解决方案是在saveAsTextFile()之前插入另一个映射拆分</p>
<pre><code>.map(lambda x: x.split(',')).saveAsTextFile(....)
</code></pre>
<p>最后的代码应该是这样的</p>
<pre><code>finalRDD1.map(csv_format).map(lambda x: ','.join(str(s) for s in x)).map(lambda x: x.split(',')).saveAsTextFile('/export_dir/result3/')
</code></pre>
<p>现在你的csv看起来像这样</p>
<pre><code>[ 'Alpha', 'E03']
['Beta', 'E02']
.....
.....
</code></pre>