PandasHDF5作为数据库

网友

1楼 · 编辑于 2024-05-11 17:41:00

我知道下面的问题不是一个很好的答案，但它非常适合我的需要，而且我没有在其他地方实现它：

from pandas import HDFStore
import os
import time

class SafeHDFStore(HDFStore):
    def __init__(self, *args, **kwargs):
        probe_interval = kwargs.pop("probe_interval", 1)
        self._lock = "%s.lock" % args[0]
        while True:
            try:
                self._flock = os.open(self._lock, os.O_CREAT |
                                                  os.O_EXCL |
                                                  os.O_WRONLY)
                break
            except FileExistsError:
                time.sleep(probe_interval)

        HDFStore.__init__(self, *args, **kwargs)

    def __exit__(self, *args, **kwargs):
        HDFStore.__exit__(self, *args, **kwargs)
        os.close(self._flock)
        os.remove(self._lock)

我用这个作为

result = do_long_operations()
with SafeHDFStore('example.hdf') as store:
    # Only put inside this block the code which operates on the store
    store['result'] = result

在同一个存储上工作的不同进程/线程将简单地排队。

请注意，如果您天真地从多个进程操作存储，则最后一次关闭存储将“获胜”，而其他人“认为他们所写的”将丢失。

（我知道我可以让一个进程管理所有的写操作，但是这个解决方案避免了酸洗的开销）

编辑：现在可以调整“探测间隔”（如果频繁写入，则一秒钟太长）

网友

2楼 · 编辑于 2024-05-11 17:41:00

HDF组现在有一个HDF5的REST服务：http://hdfgroup.org/projects/hdfserver/

网友

3楼 · 编辑于 2024-05-11 17:41:00

HDF5对于并发只读访问很好。
对于并发写访问，您要么使用parallel HDF5，要么使用负责向HDF5存储写入的工作进程。

有人试图将HDF5与HDF组intself中的RESTful API结合起来。有关详细信息，请参见here和here。我不知道它有多成熟。

我建议使用混合方法，并通过RESTful API公开它。
您可以将元信息存储在SQL/NoSQL数据库中，并将原始数据（时间序列数据）保存在一个或多个HDF5文件中。

有一个公共REST API来访问数据，用户不必关心幕后发生了什么。
这也是我们储存生物信息的方法。

相关问题更多 >

编程相关推荐

热门问题

热门文章