2024-05-02 11:33:04 发布
网友
我有一个pandas数据帧,有700万条记录,我试图创建一个dask数据帧,但我不断遇到内存问题。在
使用的代码:
dd_test = dd.from_pandas(df_lookup_table, npartitions=3)
错误消息:
我可以用更小的数据帧创建一个dask数据帧。如何从这个pandas数据帧创建dask数据帧?在
dask的关键是能够处理不适合内存的数据。在本例中,您首先将数据集加载到内存中,然后再将其传递给dask。相反,您应该使用dask直接加载数据。例如,如果使用pandas.read_csv,则应将其切换为dask.dataframe.read_csv。在
pandas.read_csv
dask.dataframe.read_csv
dask的关键是能够处理不适合内存的数据。在本例中,您首先将数据集加载到内存中,然后再将其传递给dask。相反,您应该使用dask直接加载数据。例如,如果使用
pandas.read_csv
,则应将其切换为dask.dataframe.read_csv
。在相关问题 更多 >
编程相关推荐