迭代Dask数据帧

df = dd.read_csv('data/*.csv', usecol=['MyCol']) # Process column and get underlying Numpy array. # This greatly reduces memory consumption, but eventually materializes # the entire dataset into memory my_ids = df.MyCol.apply(process_my_col).compute().values tokenizer = Tokenizer() tokenizer.fit_on_texts(my_ids)

2条回答

网友

1楼 · 编辑于 2024-10-02 18:21:11

Dask数据帧在技术上是一组数据帧，称为分区。当您得到底层numpy数组时，您正在破坏分区结构，它将是一个大数组。我建议使用Dask DataFrames的map_partition函数分别在每个分区上应用常规函数

网友

2楼 · 编辑于 2024-10-02 18:21:11

我还建议map_partition当它适合您的问题时。但是，如果您真的只需要顺序访问和类似于read_csv(chunksize=...)的API，那么您可能需要查找partitions属性

for part in df.partitions:
    process(model, part.compute())

编程相关推荐

插入表达式以完成JAVA语句块时出现语法错误
在linkedlist中的特定节点后插入java
java如何将参数传递给安卓 junit测试（参数化测试）
java在运行时将数据添加到片段中的RecyclerView，在该片段中，数据是在单独的片段中创建的
java apache CsrfPreventionFilter和404错误
java Ask是安卓 6.0的多重权限
java将字符串解析为Time并插入mysqldatabase
java扩展MyBatis映射器接口可能导致异常
java SparkSql不支持日期格式
在java中剪切字符串的一部分

相关问题更多 >

编程相关推荐

热门问题

热门文章