我正在处理来自https://opendata.rdw.nl/Voertuigen/Open-Data-RDW-Gekentekende_voertuigen_brandstof/8ys7-d773的数据(使用“Exporteer”按钮下载CSV文件)
当我使用read.csv()
将数据导入R时,需要3.75 GB的内存,但当我使用pd.read_csv()
将数据导入pandas时,需要6.6 GB的内存
为什么差异如此之大
我使用以下代码来确定R中数据帧的内存使用情况:
library(pryr)
object_size(df)
和python:
df.info(memory_usage="deep")
我发现该链接非常有用,并认为值得从评论和总结中突破:
Reducing Pandas memory usage #1: lossless compression
使用
usecols
仅加载感兴趣的列使用较小的数据类型收缩数字列
int64
:(默认)-9223372036854775808到9223372036854775807int16
:-32768到32767int8
:-128到127使用数据类型
category
收缩分类数据将大部分
nan
数据转换为数据类型Sparse
相关问题 更多 >
编程相关推荐