擅长:python、mysql、java
<p>首先,对于大型数据集,熊猫确实需要很多时间来处理,我也经历了同样的阶段。我可以给你一个小把戏,真的帮了我的忙。你知道吗</p>
<p>首先,让数据加载到dataframe。然后创建另一个列列表,选择所有需要的列,并从数据框中创建自己的数据集(Ex-.xls或.csv或.json文件)。您会发现创建的数据集的大小远远小于您使用的原始数据集的大小。原始数据集有许多未使用的信息和内容,这些信息和内容从未被使用过,而且占用的内存比需要的内存大得多。我明白,这不是标准的方法,但它真的帮助了我。
例如:</p>
<pre><code>df.to_csv('df1.csv')
</code></pre>
<p>您还可以临时创建选定的列,并为较小的数据集做出更好的选择。示例:</p>
<pre><code>new_cols = ['Name', 'a', 'b', 'c', 'd', 'e']
df.columns = new_cols
</code></pre>
<p>这真的帮助了我。我希望它也能帮助你。你知道吗</p>