擅长:python、mysql、java
<p>您的数据不是CSV格式。CSV表示具有固定模式的逗号分隔文本文件。您的数据的CSV将是:</p>
<pre><code>abc,x1,x2,x3,,
def,x1,x3,x4,x8,x9
ghi,x7,x10,x11,,
</code></pre>
<p>请注意第1行和第3行中的尾随逗号,它们不在您的数据中。在</p>
<p>由于您有一个不是CSV的文本文件,所以在Spark中获取所需模式的方法是在Python中读取整个文件,解析成您想要的内容,然后使用<code>spark.crateDataFrame()</code>。或者,如果在一个目录中有多个这样的文件,请使用<code>SparkContext.wholeTextFiles</code>,然后使用<code>flatMap</code>解析函数。在</p>
<p>假设您已经完成了<code>open("Your File.txt").readlines</code>之类的操作,剩下的就简单了:</p>
^{pr2}$