擅长:python、mysql、java
<p>你不能,或者至少不应该这样做。spark的要点是不同的行可以并行处理;如果前两行运行在一个集群节点上,而后两行运行在不同的集群节点上,那么第二个节点就无法知道Movie3与Actor1一起运行。在</p>
<p>您可以将<code>mapPartitions</code>与函数一起使用,该函数将行作为<code>Iterator</code>,并使用<code>var</code>来跟踪“当前”参与者。如果对如何拆分输入文本文件非常小心,则可能不会丢失任何数据。但我建议您寻找一种更好的输入格式。在</p>