擅长:python、mysql、java
<p>这种文件格式称为固定宽度文件<code>pandas</code>有一个专门用于读取此类文件的函数:<a href="https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_fwf.html" rel="nofollow noreferrer">^{<cd2>}</a></p>
<p>默认情况下,<code>pandas</code>将推断每列的宽度。如果您发现这样做有问题,您可以研究<code>colspecs</code>可选参数</p>
<p>您可以使用以下方法将生成的<code>pandas.DataFrame</code>转换为pyspark数据帧:</p>
<pre><code>spark.createDataFrame(pandas_df)
</code></pre>
<p>作为<a href="https://spark.apache.org/docs/2.1.0/api/python/pyspark.sql.html#pyspark.sql.SparkSession.createDataFrame" rel="nofollow noreferrer">documented by pyspark</a></p>