擅长:python、mysql、java
<p>所以格伦尼的回答很接近,但对你的情况却没有什么效果。关键是选择正确版本的依赖项。如果你看看虚拟环境</p>
<p><a href="https://i.stack.imgur.com/Uxcmn.png" rel="nofollow noreferrer"><img src="https://i.stack.imgur.com/Uxcmn.png" alt="Jars"/></a></p>
<p>所有内容都指向一个版本<code>2.7.3</code>,您还需要使用这个版本</p>
<pre><code>os.environ['PYSPARK_SUBMIT_ARGS'] = ' packages "org.apache.hadoop:hadoop-aws:2.7.3" pyspark-shell'
</code></pre>
<p>您应该通过检查项目的虚拟环境中的路径<code>venv/Lib/site-packages/pyspark/jars</code>来验证安装使用的版本</p>
<p>然后,您可以在默认情况下使用<code>s3a</code>,或者通过为其定义处理程序类来使用<code>s3</code></p>
^{pr2}$
<p>输出量低于</p>
<p><a href="https://i.stack.imgur.com/C4JGU.png" rel="nofollow noreferrer"><img src="https://i.stack.imgur.com/C4JGU.png" alt="OutputSpark"/></a></p>