使用Dask导入大型CSV文件

2024-10-01 00:24:05 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在使用Dask导入一个非常大的csv文件~680GB,但是,输出不是我所期望的。我的目标是只选择一些列(6/50),并可能过滤它们(我不确定这一点,因为似乎没有数据):

import dask.dataframe as dd

file_path = "/Volumes/Seagate/Work/Tickets/Third ticket/Extinction/species_all.csv"

cols = ['year', 'species', 'occurrenceStatus', 'individualCount', 'decimalLongitude', 'decimalLatitde']
dataset = dd.read_csv(file_path, names=cols,usecols=[9, 18, 19, 21, 22, 32])

当我将其读入Jupyter时,我无法理解输出-控制台输出:

Dask DataFrame Structure:
                     year species occurrenceStatus individualCount decimalLongitude decimalLatitde
npartitions=11397                                                                                 
                   object  object           object          object           object         object
                      ...     ...              ...             ...              ...            ...
...                   ...     ...              ...             ...              ...            ...
                      ...     ...              ...             ...              ...            ...
                      ...     ...              ...             ...              ...            ...
Dask Name: read-csv, 11397 tasks

Tags: 文件csvpathreadobjectyeardddask
2条回答

看起来您已经成功创建了dask数据帧。如果您希望看到类似熊猫数据帧的内容,那么可以使用dataset.head()查看数据。对于更复杂的计算,最好保持数据集惰性(作为dask数据帧),并对所有转换使用标准的pandas语法

# this is needed to call dask.compute
import dask

# for example take a subset
subset_data = dataset[dataset['year']>2000]

# find out the total value for this column
lazy_result = subset_data['individualCount'].sum()

# now that the target is known use .compute
computed_result = dask.compute(lazy_result)

除了dask之外,您还可以查看vaex,出于某些目的,它可能更好:https://vaex.io/

1。惰性计算

达斯克懒洋洋地评价。单独调用dataset不会触发任何计算。您需要调用dataset.compute()dataset.persist()来触发计算并检查数据帧。现有答案建议使用dataframe.head()实际上是在数据子集上调用.compute()。阅读更多关于这意味着什么here in the Dask docs

2。列修剪

<>你可能想考虑把你的数据集转换成实木拼花地板。来自this resource:“Parquet允许您从数据集中读取特定列,而无需读取整个文件。这称为列修剪,可以极大地提高性能。”

玩具代码示例

# read in your csv
dataset= dd.read_csv('your.csv')

# store as parquet
dataset.to_parquet('your.parquet', engine='pyarrow')

# read in parquet file with selected columns
dataset = dd.read_parquet('your.parquet', columns=list_of_columns)
dataset.head()

相关问题 更多 >