将大火花数据帧写入csv fi问题的回答

将大火花数据帧写入csv fi

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我正在使用Spark 2.3，我需要将Spark数据帧保存到csv文件中，我正在寻找更好的方法。。查看相关/类似的问题，我找到了<a href="https://stackoverflow.com/questions/31385363/how-to-export-a-table-dataframe-in-pyspark-to-csv">this one</a>，但我需要一个更具体的问题： 如果数据帧太大，如何避免使用Pandas？因为我使用了<code>toCSV()</code>函数（代码如下），它产生了： <blockquote> Out Of Memory error (could not allocate memory). </blockquote> 使用文件I/O直接写入csv是更好的方法吗？它能保护分离器吗？在 使用^ {CD2>}会导致头文件写入每个文件，当文件合并时，中间会有标头。我错了吗？在 从性能的角度来看，使用spark<code>write</code>和hadoop<code>getmerge</code>比使用coalesce要好？在 <pre><code>def toCSV(spark_df, n=None, save_csv=None, csv_sep=',', csv_quote='"'): """get spark_df from hadoop and save to a csv file Parameters ---------- spark_df: incoming dataframe n: number of rows to get save_csv=None: filename for exported csv Returns ------- """ # use the more robust method # set temp names tmpfilename = save_csv or (wfu.random_filename() + '.csv') tmpfoldername = wfu.random_filename() print n # write sparkdf to hadoop, get n rows if specified if n: spark_df.limit(n).write.csv(tmpfoldername, sep=csv_sep, quote=csv_quote) else: spark_df.write.csv(tmpfoldername, sep=csv_sep, quote=csv_quote) # get merge file from hadoop HDFSUtil.getmerge(tmpfoldername, tmpfilename) HDFSUtil.rmdir(tmpfoldername) # read into pandas df, remove tmp csv file pd_df = pd.read_csv(tmpfilename, names=spark_df.columns, sep=csv_sep, quotechar=csv_quote) os.remove(tmpfilename) # re-write the csv file with header! if save_csv is not None: pd_df.to_csv(save_csv, sep=csv_sep, quotechar=csv_quote) </code></pre>

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

将大火花数据帧写入csv fi

1 个回答

相关Python问题