擅长:python、mysql、java
<p>使用熊猫:</p>
<pre><code>import pandas as pd
interesting_files = glob.glob("/home/tcs/PYTHONMAP/test1/*.csv")
df = pd.concat((pd.read_csv(f, header = 0) for f in interesting_files))
df.to_csv("output.csv")
</code></pre>
<p>要同时删除重复行,请执行以下操作:</p>
<pre><code>import pandas as pd
interesting_files = glob.glob("/home/tcs/PYTHONMAP/test1/*.csv")
df = pd.concat((pd.read_csv(f, header = 0) for f in interesting_files))
df_deduplicated = df.drop_duplicates()
df_deduplicated.to_csv("output.csv")
</code></pre>
<p>这不会在创建数据帧时消除重复项,而是在之后。因此,通过连接所有文件来创建数据帧。然后对其进行重复数据消除。最后的数据帧可以保存到csv。</p>