将整个（大）模式转换为hdf5

def make_connectstring(prefix, db, uname, passa, hostname, port): """return an sql connectstring""" connectstring = prefix + "://" + uname + ":" + passa + "@" + hostname + \ ":" + port + "/" + db return connectstring

def query_to_hdf5(connectstring, query, verbose=False, chunksize=50000): engine = sqlalchemy.create_engine(connectstring, server_side_cursors=True) # get the data to temp chunk filese i = 0 paths_chunks = [] with tempfile.TemporaryDirectory() as td: for df in pd.read_sql_query(sql=query, con=engine, chunksize=chunksize): path = td + "/chunk" + str(i) + ".hdf5" df.to_hdf(path, key='data') print(path) if verbose: print("wrote", path) paths_chunks.append(path) i+=1 connectstring = make_connectstring(prefix, db, uname, passa, hostname, port) query = "SELECT * FROM public.zz_ges" df = query_to_hdf5(connectstring, query)

df = pd.DataFrame() print(path) for path in paths_chunks: df_scratch = pd.read_hdf(path) df = pd.concat([df, df_scratch]) if verbose: print("read", path)

更新：

def make_connectstring(prefix, db, uname, passa, hostname, port): """return an sql connectstring""" connectstring = prefix + "://" + uname + ":" + passa + "@" + hostname + \ ":" + port + "/" + db return connectstring def query_to_df(connectstring, query, verbose=False, chunksize=50000): engine = sqlalchemy.create_engine(connectstring, server_side_cursors=True) # get the data to temp chunk filese with pd.HDFStore('output.h5', 'w') as store: for df in pd.read_sql_query(sql=query, con=engine, chunksize=chunksize): store.append('data', df)

1条回答

网友

1楼 · 发布于 2024-06-26 13:22:49

我建议您直接使用^{}，这样您就可以在从数据库中获取块时附加它们，例如：

with pd.HDFStore('output.h5', 'w') as store:
  for df in pd.read_sql_query(sql=query, con=engine, chunksize=chunksize):
    store.append('data', df)

这是基于你现有的代码，所以是不完整的，让我知道如果它不清楚

注意，我正在以w模式打开存储，因此每次都会删除文件。否则append将继续向表的末尾添加相同的行。或者你可以先remove键

当你打开商店的时候，你也会得到很多像压缩这样的选项，但是它似乎没有很好的文档记录，help(pd.HDFStore)为我描述了complevel和complib

更新：

相关问题更多 >

编程相关推荐

热门问题

热门文章