擅长:python、mysql、java
<p>我将只复制一个关于fastparquet的<a href="https://github.com/dask/fastparquet/issues/244" rel="nofollow noreferrer">related issue</a>的注释:从技术上讲,可以向现有的parquet数据集添加列,但这并没有在fastparquet中实现,也可能不会在任何其他parquet实现中实现。在</p>
<p>编写这样的代码可能不会太麻烦(但目前还没有计划):对<a href="https://github.com/dask/fastparquet/blob/master/fastparquet/writer.py#L613" rel="nofollow noreferrer">write columns</a>的调用是按顺序进行的,因此需要向下渗透到该函数中的新列,以及与页脚中元数据的当前第一个字节相对应的文件位置。另外,模式需要单独更新(这很简单)。对于数据集的每个文件,都需要重复该过程。这不是问题的“答案”,但也许有人想承担这项任务。在</p>