擅长:python、mysql、java
<p>在我看来,你这样做的顺序不对。我强烈建议您在pyspark应用程序中直接使用来自Kafka的数据。
如果您愿意,您也可以将Kafka主题写入HDFS<em>以及</em>(请记住,Kafka会保存数据,因此当您在pyspark中读取它时,不会更改从同一主题写入HDFS的内容)。</p>
<p>当数据已经在Kafka中时,将PySpark与HDFS耦合是没有意义的。</p>
<p>下面是一个在pyspark中直接使用Kafka数据的<a href="https://www.rittmanmead.com/blog/2017/01/getting-started-with-spark-streaming-with-python-and-kafka/" rel="nofollow noreferrer">simple example</a>。</p>