计算统计数据的中间合并/联接数据帧的性能问题

[{'index': 0, 'city1': 'sfo', 'city2': 'yyz'}, {'index': 1, 'city1': 'sfo', 'city2': 'yvr'}, {'index': 2, 'city1': 'sfo', 'city2':'dfw'}, {'index': 3, 'city1': 'sfo', 'city2':'ewr'}, {'index': 4, 'city1': 'sfo', 'city2': 'pdx'}]

city fuel landings takeoffs passengers date 2014-05-01 sfo 2.32 4.26 4.87 6.58 2014-05-01 yyz 14.00 1.50 20.00 5.00 2014-05-01 yvr 24.78 2.90 50.55 6.64 2014-05-01 dfw 2.40 4.06 4.06 6.54 2014-05-01 ewr 30.35 9.96 64.24 6.66 2014-05-01 pdx 60.35 5.45 4.12 6.98

[{'date': Timestamp('2014-05-01 00:00:00'), 'city': 'sfo', 'landings': 4.26, 'passengers': 6.58, 'fuel': 2.32, 'takeoffs': 4.87}, {'date': Timestamp('2014-05-01 00:00:00'), 'city': 'yyz', 'landings': 1.5, 'passengers': 5.00, 'fuel': 14.00, 'takeoffs': 20.00}, {'date': Timestamp('2014-05-01 00:00:00'), 'city': 'yvr', 'landings': 2.9, 'passengers': 6.64, 'fuel': 24.78, 'takeoffs': 50.55}, {'date': Timestamp('2014-05-01 00:00:00'), 'city': 'dfw', 'landings': 4.06, 'passengers': 6.54, 'fuel': 2.4, 'takeoffs': 4.06}, {'date': Timestamp('2014-05-01 00:00:00'), 'city': 'ewr', 'landings': 9.96, 'passengers': 6.66, 'fuel': 30.35, 'takeoffs': 64.24}, {'date': Timestamp('2014-05-01 00:00:00'), 'city': 'pdx', 'landings': 5.45, 'passengers': 6.98, 'fuel': 60.35, 'takeoffs': 4.12}]

city1_df = df_stats1[df_stats1['city'] == row['city1']] city2_df = df_stats1[df_stats1['city'] == row['city2']] tmp_city_pair_df = city1_df.merge(city2_df, left_index=True, right_index=True, how = 'right', suffixes=('_1','_2'))

city1 city2 stat1, stat2, stat3, stat4, stat5, stat6 ... 0 sfo yyz, x, x, x, x, x, x 1 sfo yvr, y, y, y, y, y, y 2 sfo dfw, z, z, z, z, z, z 3 sfo ewr, a, a, a, a, a, a 4 sfo pdx, b, b, b, b, b, b

1条回答

网友
1楼 · 发布于 2024-10-05 11:08:22

Python（和pandas）在构造大量对象时的性能很差。对于apply中的每一行，您的merge就是这样做的。相反，您可以尝试以下操作：
tmp = pd.merge(df_pairs, df_stats.add_suffix('_1'), left_on='city1', right_on='city_1', how='left') pd.merge(tmp, df_stats.add_suffix('_2'), left_on='city2', right_on='city_2', how='left')
这将首先有效地执行合并（这里的两行结构是为了节省空间，并且只对df_pairs中的所有对执行合并）。你知道吗
而且，现在可以矢量化地进行所有分析，在任何情况下都应该快得多。如果您添加了有关所需分析的更多详细信息，则可以进一步解决此问题。你知道吗
编辑
根据编辑的问题和评论，这里是一个处理日常数据的概要。具体来说，让我们来处理着陆日期的每日差异（您可以适应各种变化，例如，只有正差异）。你知道吗
假设你从
landings_by_date = df_stats1[['city', 'date', 'landings']].set_index(['city', 'date']).unstack() landings_by_date.columns = landings_by_date.columns.get_level_values(1)
要找出某个特定日期的着陆日期差异，比如说第一个（索引0），您可以
lhs = pd.merge(df_pairs, landings_by_date.ix[:, [0]], left_on='city1', right_index=True, how='left').set_index(['city1', 'city2']) rhs = pd.merge(df_pairs, landings_by_date.ix[:, [0]], left_on='city2', right_index=True, how='left').set_index(['city1', 'city2']) lhs - rhs
（或者，去努比
(lhs - rhs).values
（）
要计算所有日期的聚合，请在循环中执行此操作（以便日期索引为0、1、…），然后更新聚合。你知道吗
为什么这样更有效？根据问题的具体情况，每天约有3000个日期，但约有1.5e6行。你知道吗
即使您正在循环（在数值Python中这是不受欢迎的），您也只进行了~3000次迭代，并且在每个迭代中以矢量方式处理~1.5e6个条目。
你不是在创建1.5e6次的小数据帧（如你的问题所示），你只创建了3000次（更大的）数据帧。
内存需求应该很小-只是每个聚合额外的~1.5e6。

相关问题更多 >

编程相关推荐

热门问题

热门文章