多年观测指标的选择问题的回答

多年观测指标的选择

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

使用分组依据<a href="https://pandas.pydata.org/pandas-docs/stable/generated/pandas.core.groupby.DataFrameGroupBy.filter.html" rel="nofollow noreferrer">^{<cd1>}</a> 可以将返回布尔值的函数传递给 <pre><code>df.groupby(level=0).filter(lambda x: len(x) > 1) a b x 0 7 33 1 31 43 t 0 71 18 1 68 72 </code></pre> <hr/> 我把大部分时间都花在速度上了。并非所有的解决方案都需要最快的解决方案。然而，既然这个问题已经提出来了。我会提供我认为应该是一个快速解决方案。我的意图是让未来的读者了解情况。你知道吗 时间测试结果 <pre><code>res.plot(loglog=True) </code></pre> <a href="https://i.stack.imgur.com/8AwNx.png" rel="nofollow noreferrer"><img src="https://i.stack.imgur.com/8AwNx.png" alt="enter image description here"/></a> <pre><code>res.div(res.min(1), 0).T 10 30 100 300 1000 3000 cs 4.425970 4.643234 5.422120 3.768960 3.912819 3.937120 wen 2.617455 4.288538 6.694974 18.489803 57.416648 148.860403 jp 6.644870 21.444406 67.315362 208.024627 569.421257 1525.943062 pir 6.043569 10.358355 26.099766 63.531397 165.032540 404.254033 pir_pd_factorize 1.153351 1.132094 1.141539 1.191434 1.000000 1.000000 pir_np_unique 1.058743 1.000000 1.000000 1.000000 1.021489 1.188738 pir_best_of 1.000000 1.006871 1.030610 1.086425 1.068483 1.025837 </code></pre> 模拟详细信息 <pre><code>def pir_pd_factorize(df): f, u = pd.factorize(df.index.get_level_values(0)) m = np.bincount(f)[f] > 1 return df[m] def pir_np_unique(df): u, f = np.unique(df.index.get_level_values(0), return_inverse=True) m = np.bincount(f)[f] > 1 return df[m] def pir_best_of(df): if len(df) > 1000: return pir_pd_factorize(df) else: return pir_np_unique(df) def cs(df): return df[df.groupby(level=0).a.transform('size').gt(1)] def pir(df): return df.groupby(level=0).filter(lambda x: len(x) > 1) def wen(df): s=df.a.count(level=0) return df.loc[s[s>1].index.tolist()] def jp(df): return df.loc[[i for i in df.index.get_level_values(0).unique() if len(df.loc[i]) > 1]] res = pd.DataFrame( index=[10, 30, 100, 300, 1000, 3000], columns='cs wen jp pir pir_pd_factorize pir_np_unique pir_best_of'.split(), dtype=float ) np.random.seed([3, 1415]) for i in res.index: d = pd.DataFrame( dict(a=range(i)), pd.MultiIndex.from_arrays([ np.random.randint(i // 4 * 3, size=i), range(i) ]) ) for j in res.columns: stmt = f'{j}(d)' setp = f'from __main__ import d, {j}' res.at[i, j] = timeit(stmt, setp, number=100) </code></pre>

多年观测指标的选择

1 个回答

相关Python问题