擅长:python、mysql、java
<p>序列文件用于存储键值对,因此不能简单地存储<code>RDD[String]</code>。根据你的数据,我猜你在寻找这样的东西:</p>
<pre><code>rdd = sc.parallelize([
"2,Fitness", "3,Footwear", "4,Apparel"
])
rdd.map(lambda x: tuple(x.split(",", 1))).saveAsSequenceFile("testSeq")
</code></pre>
<p>如果要保留整个字符串,请使用<code>None</code>键:</p>
<pre><code>rdd.map(lambda x: (None, x)).saveAsSequenceFile("testSeqNone")
</code></pre>