如何找到一行的值连续达到max的次数问题的回答

如何找到一行的值连续达到max的次数

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我想知道一行的值连续达到max的次数。你知道吗 <ul> <li>Ps1：我的数据有500K行，所以我担心计算速度</li> <li>Ps2：在本例中，startDay=1，endDay=7，但有些行不同的开始或结束日期。（例如startDay=2，endDay=5或开始日期=4，结束日期=3。arr\u bool control this conditions）</li> </ul> 我的数据： <pre class="lang-py prettyprint-override"><code>import pandas as pd import numpy as np idx = ['id1', 'id2', 'id3', 'id4', 'id5', 'id6', 'id7', 'id8', 'id9', 'id10'] data = {'Day1':[0,0,1,0,1,1,0,0,1,1], 'Day2':[0,1,1,1,2,1,0,1,1,2], 'Day3':[1,3,1,1,1,0,0,1,3,2], 'Day4':[1,2,0,1,1,0,0,2,1,1], 'Day5':[0,2,1,1,1,1,0,2,1,1], 'Day6':[1,0,1,1,2,1,0,2,1,1], 'Day7':[0,0,0,1,1,1,0,0,3,1]} startday = pd.DataFrame([1,1,1,1,1,1,1,1,1,1],columns=['start'], index=idx) endday = pd.DataFrame([7,7,7,7,7,7,7,7,7,7],columns=['end'], index=idx) df = pd.DataFrame(data, index=idx) Neg99 = -999 Neg90 = -900 </code></pre> 我应该搜索每一行的时间间隔我可以找到时间间隔中的最大值，但找不到连续命中最大值的行的值计数。你知道吗 <pre class="lang-py prettyprint-override"><code>arr_bool = (np.less_equal.outer(startday.start, range(1,8)) & np.greater_equal.outer(endday.end, range(1,8)) ) df_result = pd.DataFrame(df.mask(~arr_bool).max(axis=1), index=idx, columns=['result']) </code></pre> 最后条件： <pre class="lang-py prettyprint-override"><code>df_result.result= np.select( condlist = [startday.start > endday.end, ~arr_bool.any(axis=1)], choicelist = [Neg99,Neg90], default = df_result.result) </code></pre> 我想要的结果 <pre class="lang-py prettyprint-override"><code>result_i_want = pd.DataFrame([2,1,3,6,1,3,0,3,1,2],columns=['result'], index=idx) </code></pre> 这是@WeNYoBen的解决方案，但进展缓慢 <pre class="lang-py prettyprint-override"><code>s=((df.eq(df.max(1),0))&(df.ne(0))) s.apply(lambda x : x[x].groupby((~x).cumsum()).count().max(),1).fillna(0) </code></pre>

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

下面是另一个<code>numpy</code>解决方案。首先，将计时与@pirsquares进行比较，以供参考。在给出完全相同的结果的同时，我的代码在一个大型示例中的速度提高了约14倍。你知道吗 <pre><code># both methods give the expected result on small OP example result id1 2 id2 1 id3 3 id4 6 id5 1 id6 3 id7 0 id8 3 id9 1 id10 2 result id1 2 id2 1 id3 3 id4 6 id5 1 id6 3 id7 0 id8 3 id9 1 id10 2 # timings on 50,000 rows random example pp 12.89263810031116 pi 189.0821446024347 # comparison of results result True dtype: bool </code></pre> 代码： <pre><code>import pandas as pd import numpy as np # OP example idx = ['id1', 'id2', 'id3', 'id4', 'id5', 'id6', 'id7', 'id8', 'id9', 'id10'] data = {'Day1':[0,0,1,0,1,1,0,0,1,1], 'Day2':[0,1,1,1,2,1,0,1,1,2], 'Day3':[1,3,1,1,1,0,0,1,3,2], 'Day4':[1,2,0,1,1,0,0,2,1,1], 'Day5':[0,2,1,1,1,1,0,2,1,1], 'Day6':[1,0,1,1,2,1,0,2,1,1], 'Day7':[0,0,0,1,1,1,0,0,3,1]} startday = pd.DataFrame([1,1,1,1,1,1,1,1,1,1],columns=['start'], index=idx) endday = pd.DataFrame([7,7,7,7,7,7,7,7,7,7],columns=['end'], index=idx) df = pd.DataFrame(data, index=idx) Neg99 = -999 Neg90 = -900 # large example IDX = [f'id{i}' for i in range(1,50_001)] STARTDAY, ENDDAY = (pd.DataFrame({c:l}, index=IDX) for c,l in zip(('start','end'), np.sort(np.random.randint(1,8,(2,50_000)), axis=0))) DF = pd.DataFrame({f'Day{i}':l for i,l in enumerate(np.random.randint(0,4,(7, 50_000)), 1)}, index=IDX) def pp(): if restrict_max: data = np.where((startday.values<=np.arange(1,8)) & (endday.values>=np.arange(1,8)), df.values, 0) mask = data==np.maximum((data==0).all(1), data.max(1))[:, None] else: mask = (df.values==np.maximum((df.values==0).all(1), df.values.max(1))[:, None]) & (startday.values<=np.arange(1,8)) & (endday.values>=np.arange(1,8)) y, x = np.where(np.diff(mask, axis=1, prepend=False, append=False)) y = y[::2] x = x[1::2]-x[::2] res = np.zeros(df.values.shape[:1], int) nl = np.flatnonzero(np.diff(y, prepend=-1)) res[y[nl]] = np.maximum.reduceat(x, nl) return pd.DataFrame({'result': res}, index=df.index) def pi(): sd = startday.start.values ed = endday.end.values dr = ed - sd + 1 i = np.arange(len(df)).repeat(dr) j = np.concatenate([np.arange(s - 1, e) for s, e in zip(sd, ed)]) v = df.values mx = np.empty(len(v), dtype=v.dtype) mx.fill(v.min()) np.maximum.at(mx, i, v[i, j]) b = np.ones((v.shape[0], v.shape[1] + 2), bool) b[i, j + 1] = (v[i, j] != mx[i]) | (mx[i] == 0) x, y = np.where(b) y_ = np.diff(y) mask = y_ > 0 y__ = y_[mask] x__ = x[1:][mask] c = np.empty(len(v), int) c.fill(y__.min()) np.maximum.at(c, x__, y__) return pd.DataFrame({'result': c - 1}, index=df.index) restrict_max=True print(pp()) print(pi()) df, startday, endday = DF, STARTDAY, ENDDAY from timeit import timeit print('pp', timeit(pp,number=10)*100) print('pi', timeit(pi,number=10)*100) print((pp()==pi()).all()) </code></pre>

如何找到一行的值连续达到max的次数

1 个回答

相关Python问题