使用daskhdf/parqu的Python大数据集特征工程工作流

2条回答

网友

1楼 · 编辑于 2024-05-18 19:14:13

我会认真考虑使用数据库（索引访问）作为存储，甚至使用apachespark（以分布式/集群方式处理数据）和Hive/Impala作为后端。。。在

网友

2楼 · 编辑于 2024-05-18 19:14:13

我将只复制一个关于fastparquet的related issue的注释：从技术上讲，可以向现有的parquet数据集添加列，但这并没有在fastparquet中实现，也可能不会在任何其他parquet实现中实现。在

编写这样的代码可能不会太麻烦（但目前还没有计划）：对write columns的调用是按顺序进行的，因此需要向下渗透到该函数中的新列，以及与页脚中元数据的当前第一个字节相对应的文件位置。另外，模式需要单独更新（这很简单）。对于数据集的每个文件，都需要重复该过程。这不是问题的“答案”，但也许有人想承担这项任务。在

编程相关推荐

java刷新系统。用自己的记录器输出
使用Jython将参数从Java传递到Python
JavaSocksV4代理
java如何使用通知？
java@DirtiesConext不工作
java将多个jar组合成一个（使用maven）
java使用相等运算符比较两个类
java我怎样才能让两个JOptionPane一起出现在我的第一页上，并让它们在两个页面上都有正确的答案？
html无法访问java中资产文件夹内的文件
通过post命令向SpringWebApp发送对象时，java对象字段为null

初始文件是一个csv，它不适合内存。以下是我的需求：

尝试使用拼花地板和护墙板：

尝试使用HDF和dask:

相关问题更多 >

编程相关推荐

热门问题

热门文章

使用daskhdf/parqu的Python大数据集特征工程工作流

初始文件是一个csv，它不适合内存。以下是我的需求：

尝试使用拼花地板和护墙板：

尝试使用HDF和dask:

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >