填充缺失数据并与主数据合并问题的回答

填充缺失数据并与主数据合并

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

对于数据集DF，我想添加从辅助数据集TEMP获取的温度。临时工并没有所有的日期。缺少的日期需要以这样一种方式进行插值，即为缺失的值填充最新的可用值。例如，如果2019-2-20缺少温度，但2019-2-19可用，则将填充此值。这可以通过使用<code>pd.DataFrame(x.asfreq('D')).ffill().reset_index(drop=False)</code>来完成。在 当每天有多个温度测量值时，应采用加权平均值。在当前代码中，使用<code>isin</code>预先选择日期以限制数据大小。在 代码可以工作，但如果数据变大，则不是最佳的，特别是如果需要填写1000个地点和日期的温度数据并将其合并到DF中。我正在寻找一个关于时间/内存的更好的解决方案，例如基于itertools、apply、generator expression或其他任何东西。在 下面我展示了一个虚拟的小的可复制的代码示例。在 模块： <pre><code>import numpy as np import pandas as pd </code></pre> 虚拟数据： ^{pr2}$ 代码： <pre><code>if 'temp' in DF.columns: del DF['temp'] else: print('No variable temp found in DF') def filltemps(dat1, dat2): """dat1: TEMP dat2: DF""" global totmp places = dat2['place'].unique() mx=len(places) totmp = pd.DataFrame(columns=['date', 'temp', 'place']) for i in range(mx): mp=[] dd1=[] nsp = pd.DataFrame(dat1[ (dat1['place']==places[i]) ]) nsp = nsp[['date', 'quantity', 'temp']] prod = lambda w,z: w*z nsp['sumn'] = prod(nsp['temp'], nsp['quantity']) wavg = lambda y,x: y/x c3 = wavg(nsp.groupby('date')['sumn'].agg('sum'), nsp.groupby('date')['quantity'].agg('sum')) mp = pd.DataFrame(c3.asfreq('D')).ffill().reset_index(drop=False) mp.columns = ['date', 'temp'] mp['place'] = np.array([places[i]] * len(mp)) mp['date'] = pd.to_datetime(mp['date']) dd1 = dat2.loc[dat2['place']==places[i], ['date']] mp = mp[ mp['date'].isin(list(pd.to_datetime(dd1['date']))) ] totmp = pd.concat([totmp, mp]) return totmp </code></pre> <code>%timeit TEMP2 = filltemps(TEMP, DF)</code>计时显示每个环路116 ms±401µs（平均值±标准偏差，7次运行，每次10次循环） 在TEMP2中，可以看出，正如预期的那样，计算了C处的加权平均值： <pre><code>TEMP2 = filltemps(TEMP, DF) </code></pre> TEMP2将与原始DF合并。请注意，如果没有早期数据可用，则可能会缺少值。在 <pre><code>DF = pd.merge(DF, TEMP2, how='left', on=['date', 'place']) </code></pre> DF，预期结果，应该是这样的： <a href="https://i.stack.imgur.com/Pnhci.png" rel="nofollow noreferrer"><img src="https://i.stack.imgur.com/Pnhci.png" alt="enter image description here"/></a> 非常感谢您的指点和帮助！在

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

我的解决方案与ob Vaishali相似，但我想指出<code>asfreq</code>的一个陷阱。在 让我们从头开始。我们计算加权平均数： <pre><code>TEMP.groupby(['date', 'place']).apply(lambda x: np.round(np.average(x['temp'],weights=x['quantity']), 2)).reset_index(name = 'temp') </code></pre> 现在我们计算完整的日期范围： ^{pr2}$ 我们使用此数据范围重新编制温度索引： <pre><code>TEMP = TEMP.groupby('place')['date', 'temp'].apply(lambda x: x.set_index('date').reindex(rng).ffill()).reset_index().rename(columns={'level_1': 'date'}) </code></pre> 与<code>as_freq</code>相反，我们现在还将处理温度时间序列比位置序列“短”的情况。在 最后，我们可以把所有的东西放在一起： <pre><code>DF.merge(TEMP, on=['date', 'place']) </code></pre> 如果我们通过更改最后日期来稍微修改输入： <pre><code>DF = pd.DataFrame({'date': ['2019-01-01', '2019-01-11', '2019-01-13', '2019-01-14', '2019-01-22', '2019-02-15'], 'place':['A', 'A','A','A','B','C']}) </code></pre> Ruthger的解决方案提供了： <pre><code> date place temp 1 2019-01-11 A 5.0 3 2019-01-13 A 5.0 4 2019-01-14 A 7.0 0 2019-01-22 B 10.0 </code></pre> 瓦西里： <pre><code> date place temp 0 2019-01-01 A NaN 1 2019-01-11 A 5.0 2 2019-01-13 A 5.0 3 2019-01-14 A 7.0 4 2019-01-22 B 10.0 5 2019-02-15 C NaN </code></pre> 乔格： <pre><code>0 2019-01-01 A NaN 1 2019-01-11 A 5.00 2 2019-01-13 A 5.00 3 2019-01-14 A 7.00 4 2019-01-22 B 10.00 5 2019-02-15 C 10.75 </code></pre> 简要介绍： <pre><code>%timeit Ruthger(TEMP, DF) 526 ms ± 36.2 ms per loop (mean ± std. dev. of 7 runs, 1 loop each) %timeit Vaishali(TEMP, DF) 12.1 ms ± 135 µs per loop (mean ± std. dev. of 7 runs, 100 loops each) %timeit Joerg(TEMP, DF) 14.9 ms ± 872 µs per loop (mean ± std. dev. of 7 runs, 100 loops each) </code></pre>

填充缺失数据并与主数据合并

1 个回答

相关Python问题