优化数据结构以保存多个具有不同键的字典

{ 'query_1' : {'has_result': True (or False), 'direct_result': True (or False), 'title': "title_1", 'summary': "summary_1", 'infobox': {'header_11': "data_11", 'header_12': "data_12", . . . } 'query_2' : {'has_result': True (or False), 'direct_result': True (or False), 'title': "title_2", 'summary': "summary_2", 'infobox': {'header_21': "data_21", 'header_22': "data_22", . . . } . . . }

1条回答

网友

1楼 · 发布于 2024-09-26 22:42:35

对于Python的数据分析，最好的选择是使用类。谢天谢地，有第三方库提供了这种功能，比如Pandas

下面的解决方案使用@MaxU's ^{} recipe

import pandas as pd

# construct dataframe from dictionary of dictionaries, d
df = pd.DataFrame.from_dict(d, orient='index').rename_axis('query').reset_index()

# extract header & data, drop infobox
df['header'] = df['infobox'].map(list)
df['data'] = df['infobox'].map(lambda x: list(x.values()))
df = df.drop('infobox', 1)

# expand dataframe
res = explode(df, ['header', 'data'])

print(res)

     query  has_result  direct_result    title    summary     header     data
0  query_1        True          False  title_1  summary_1  header_11  data_11
1  query_1        True          False  title_1  summary_1  header_12  data_12
2  query_2       False           True  title_2  summary_2  header_21  data_21
3  query_2       False           True  title_2  summary_2  header_22  data_22

存储的选择是一个广泛的问题，取决于您的用例、需求、现有的基础设施等。一般来说，您可能会发现Pickle和HDF5是足够的；HDF5提供了可移植性优势

相关问题更多 >

编程相关推荐

热门问题

热门文章