dask:如何将CSV文件从microsoftazureblob读入数据帧

2024-10-08 18:27:03 发布

您现在位置:Python中文网/ 问答频道 /正文

S3Fs是到S3的Pythonic文件接口,DASK是否有指向Azure存储Blob的Pythonic接口。pythonsdkforazurestorageblob提供了读写Blob的方法,但是接口要求将文件从云端下载到本地机器上。我正在寻找解决方案,即读取blob以支持DASK并行读取为流或字符串,而无需持久化到本地磁盘。在


Tags: 文件方法字符串机器s3解决方案pythonicazure
1条回答
网友
1楼 · 发布于 2024-10-08 18:27:03

我最近在这里推送了代码:https://github.com/dask/dask-adlfs

您可以从该位置进行pip安装,尽管conda预先安装需求(dask、cffi、oauthlib)可能会为您提供最好的服务。在python会话中,执行import dask_adlfs将足以向Dask注册后端,这样您就可以使用azure url和Dask函数,例如:

import dask.dataframe as dd
df = dd.read_csv('adl://mystore/path/to/*.csv', storage_options={
    tenant_id='mytenant', client_id='myclient', 
    client_secret='mysecret'})

由于这段代码是全新的,未经测试,请期待粗糙的边缘。运气好的话,你可以帮我熨平这些边缘。在

相关问题 更多 >

    热门问题