如何找到一行的值连续达到max的次数问题的回答

如何找到一行的值连续达到max的次数

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我想知道一行的值连续达到max的次数。你知道吗 <ul> <li>Ps1：我的数据有500K行，所以我担心计算速度</li> <li>Ps2：在本例中，startDay=1，endDay=7，但有些行不同的开始或结束日期。（例如startDay=2，endDay=5或开始日期=4，结束日期=3。arr\u bool control this conditions）</li> </ul> 我的数据： <pre class="lang-py prettyprint-override"><code>import pandas as pd import numpy as np idx = ['id1', 'id2', 'id3', 'id4', 'id5', 'id6', 'id7', 'id8', 'id9', 'id10'] data = {'Day1':[0,0,1,0,1,1,0,0,1,1], 'Day2':[0,1,1,1,2,1,0,1,1,2], 'Day3':[1,3,1,1,1,0,0,1,3,2], 'Day4':[1,2,0,1,1,0,0,2,1,1], 'Day5':[0,2,1,1,1,1,0,2,1,1], 'Day6':[1,0,1,1,2,1,0,2,1,1], 'Day7':[0,0,0,1,1,1,0,0,3,1]} startday = pd.DataFrame([1,1,1,1,1,1,1,1,1,1],columns=['start'], index=idx) endday = pd.DataFrame([7,7,7,7,7,7,7,7,7,7],columns=['end'], index=idx) df = pd.DataFrame(data, index=idx) Neg99 = -999 Neg90 = -900 </code></pre> 我应该搜索每一行的时间间隔我可以找到时间间隔中的最大值，但找不到连续命中最大值的行的值计数。你知道吗 <pre class="lang-py prettyprint-override"><code>arr_bool = (np.less_equal.outer(startday.start, range(1,8)) & np.greater_equal.outer(endday.end, range(1,8)) ) df_result = pd.DataFrame(df.mask(~arr_bool).max(axis=1), index=idx, columns=['result']) </code></pre> 最后条件： <pre class="lang-py prettyprint-override"><code>df_result.result= np.select( condlist = [startday.start > endday.end, ~arr_bool.any(axis=1)], choicelist = [Neg99,Neg90], default = df_result.result) </code></pre> 我想要的结果 <pre class="lang-py prettyprint-override"><code>result_i_want = pd.DataFrame([2,1,3,6,1,3,0,3,1,2],columns=['result'], index=idx) </code></pre> 这是@WeNYoBen的解决方案，但进展缓慢 <pre class="lang-py prettyprint-override"><code>s=((df.eq(df.max(1),0))&(df.ne(0))) s.apply(lambda x : x[x].groupby((~x).cumsum()).count().max(),1).fillna(0) </code></pre>

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

<h3>纯粹的裸体切片之类的</h3> 这一努力的重点是OP要求速度。这应该会有帮助。如果您有权访问像<code>numba</code>这样的JIT库，那么应该使用它并在每一行上循环。你知道吗 <pre><code>sd = startday.start.values ed = endday.end.values dr = ed - sd + 1 i = np.arange(len(df)).repeat(dr) j = np.concatenate([np.arange(s - 1, e) for s, e in zip(sd, ed)]) v = df.values mx = np.empty(len(v), dtype=v.dtype) mx.fill(v.min()) np.maximum.at(mx, i, v[i, j]) b = np.ones((v.shape[0], v.shape[1] + 2), bool) b[i, j + 1] = (v[i, j] != mx[i]) | (mx[i] == 0) x, y = np.where(b) y_ = np.diff(y) mask = y_ > 0 y__ = y_[mask] x__ = x[1:][mask] c = np.empty(len(v), int) c.fill(y__.min()) np.maximum.at(c, x__, y__) c - 1 array([2, 1, 3, 6, 1, 3, 0, 3, 1, 2]) </code></pre> <hr/> <h3>说明</h3> 我不谈显而易见的事情。你知道吗 这表示每个间隔中的天数 <pre><code>dr = ed - sd + 1 </code></pre> <code>i</code>是<code>j</code>中对应的展平列索引的展平相关行索引 <pre><code>i = np.arange(len(df)).repeat(dr) j = np.concatenate([np.arange(s - 1, e) for s, e in zip(sd, ed)]) </code></pre> <code>mx</code>将是每个间隔的最大值。你知道吗 <code>b</code>将是一个布尔数组，其宽度比<code>v</code>宽2列。在这种情况下，它看起来像： <pre><code># Buffer Buffer # / \ / \ array([[ True, True, True, False, False, True, False, True, True], [ True, True, True, False, True, True, True, True, True], [ True, False, False, False, True, False, False, True, True], [ True, True, False, False, False, False, False, False, True], [ True, True, False, True, True, True, False, True, True], [ True, False, False, True, True, False, False, False, True], [ True, False, False, False, False, False, False, False, True], [ True, True, True, True, False, False, False, True, True], [ True, True, True, False, True, True, True, False, True], [ True, True, False, False, True, True, True, True, True]]) </code></pre> 使用缓冲列的原因是我可以在使用<code>np.where</code>之后计算位置的差异 现在我填充<code>b</code>，其中<code>v</code>值不等于<code>mx</code>中的最大值 <pre><code> # not equal to max is equal to zero b[i, j + 1] = (v[i, j] != mx[i]) | (mx[i] == 0) </code></pre> 然后我找到这些位置在<code>y</code>中的位置。你知道吗 通过使用<code>diff</code>，我找到了从一个不等于max的实例到下一个不等于max的实例的位置数。这总是比我们要查找的数字大一个，但我们稍后会更正它。你知道吗 另外，<code>diff</code>会将长度减少1，但实际上，有很多东西我们不需要，因为我不需要计算一行相对于前一行的差值。幸运的是，我可以消除所有零或负的差异，因为它们没有意义。你知道吗 我再次使用了<code>np.maximum.at</code>，但是这次是在差异上找到最大的差异，这将是每行连续最大值的最长长度。你知道吗 请注意，实际上还有一个 呸。我厌倦了打字。。。你知道吗

如何找到一行的值连续达到max的次数

1 个回答

相关Python问题