使用Dask导入大型CSV文件

import dask.dataframe as dd file_path = "/Volumes/Seagate/Work/Tickets/Third ticket/Extinction/species_all.csv" cols = ['year', 'species', 'occurrenceStatus', 'individualCount', 'decimalLongitude', 'decimalLatitde'] dataset = dd.read_csv(file_path, names=cols,usecols=[9, 18, 19, 21, 22, 32])

Dask DataFrame Structure: year species occurrenceStatus individualCount decimalLongitude decimalLatitde npartitions=11397 object object object object object object ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... Dask Name: read-csv, 11397 tasks

2条回答

网友

1楼 · 编辑于 2024-10-01 00:24:05

看起来您已经成功创建了dask数据帧。如果您希望看到类似熊猫数据帧的内容，那么可以使用dataset.head()查看数据。对于更复杂的计算，最好保持数据集惰性（作为dask数据帧），并对所有转换使用标准的pandas语法

# this is needed to call dask.compute
import dask

# for example take a subset
subset_data = dataset[dataset['year']>2000]

# find out the total value for this column
lazy_result = subset_data['individualCount'].sum()

# now that the target is known use .compute
computed_result = dask.compute(lazy_result)

除了dask之外，您还可以查看vaex，出于某些目的，它可能更好：https://vaex.io/

网友

2楼 · 编辑于 2024-10-01 00:24:05

1。惰性计算

达斯克懒洋洋地评价。单独调用dataset不会触发任何计算。您需要调用dataset.compute()或dataset.persist()来触发计算并检查数据帧。现有答案建议使用dataframe.head()实际上是在数据子集上调用.compute()。阅读更多关于这意味着什么here in the Dask docs

2。列修剪

<>你可能想考虑把你的数据集转换成实木拼花地板。来自this resource：“Parquet允许您从数据集中读取特定列，而无需读取整个文件。这称为列修剪，可以极大地提高性能。”

玩具代码示例

# read in your csv
dataset= dd.read_csv('your.csv')

# store as parquet
dataset.to_parquet('your.parquet', engine='pyarrow')

# read in parquet file with selected columns
dataset = dd.read_parquet('your.parquet', columns=list_of_columns)
dataset.head()

相关问题更多 >

编程相关推荐

热门问题

热门文章