擅长:python、mysql、java
<p>您可以在hdfs中获取文件路径</p>
<pre><code>import org.apache.hadoop.fs.{FileSystem,Path}
val files=FileSystem.get( sc.hadoopConfiguration ).listStatus( new Path(your_path)).map( x => x.getPath ).map(x=> "hdfs://"+x.toUri().getRawPath())
</code></pre>
<p>为每个数据帧创建唯一的数据路径</p>
^{pr2}$
<p>在联合到一个数据帧之前应用过滤器或任何转换</p>
<pre><code>val df= arr_df.map(x=> x.where(your_filter)).reduce(_ union _)
</code></pre>