通过多列对数据帧中的连续项进行群集/分组问题的回答

通过多列对数据帧中的连续项进行群集/分组

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

<h3>问题</h3> <p>假设我有k个标量列，并且我想将条目分组，如果它们沿着每列彼此之间的距离在一定范围内</p> <p>假设simpicity k为2，它们是我唯一的列</p> <pre><code>pd.DataFrame(list(zip(sorted(choices(range(0,10), k=20)), choices(range(20,29), k=20))), columns=['a','b']) </code></pre> <p>屈服</p> <pre><code>[(1, 27), (1, 27), (1, 21), (2, 23), (3, 25), (4, 23), (4, 28), (4, 27), (4, 22), (4, 24), (5, 26), (6, 21), (7, 26), (7, 20), (8, 24), (8, 25), (8, 23), (9, 20), (9, 28), (9, 21)] </code></pre> <p>我需要分组，以便分组包括<code>a</code>列中最多相隔<code>m</code>的条目和<code>b</code>列中最多相隔<code>n</code>的条目。如果<code>m</code>=<code>n</code>=1，则集群将为：</p> <pre><code>(1, 27), (1, 27) (1, 21) (2, 23) (3, 25), (4, 23), (4, 22), (4, 24) (4, 28), (4, 27), (5, 26) (6, 21), (7, 20) (7, 26), (8, 24), (8, 25), (8, 23) (9, 20), (9, 21) (9, 28), </code></pre> <h3>注释</h3> <p>实现这一点的一种方法是使用<a href="https://docs.scipy.org/doc/scipy/reference/generated/scipy.spatial.distance.pdist.html" rel="nofollow noreferrer">pdist</a>，但这不是一个好的解决方案，因为：</p> <ul> <li>我有很多数据，不想做平方运算</李> <li>数据已经排序，m，n相对于列的范围较小</li> <li>m=/=n（不总是），否则m+n的曼哈顿距离阈值将起作用</li> </ul> <p>我相信这可能是一个非常相关的问题，但它没有一个普遍的答案：</p> <ul> <li><a href="https://stackoverflow.com/questions/47675262/group-by-continuous-indexes-in-pandas-dataframe">Group by continuous indexes in Pandas DataFrame</a></li> </ul> <p>一种可能帮助您找到答案的方法的草图：</p> <pre><code>a, b, c, d, e = tee(range(10), 5) next(b, None) next(c, None);next(c, None) next(d, None);next(d, None);next(d, None) next(e, None);next(e, None);next(e, None);next(e, None) list(zip(a, b, c, d, e)) [(0, 1, 2, 3, 4), (1, 2, 3, 4, 5), (2, 3, 4, 5, 6), (3, 4, 5, 6, 7), (4, 5, 6, 7, 8), (5, 6, 7, 8, 9)] </code></pre>

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

<p>你的问题让我想起了<code>lag</code>操作和<code>cumsum</code>。这里有一个答案。如果您的数据很大，我认为使用python <code>list</code>和<code>tuple</code>是可以的，默认模块必须有函数来完成我们的任务</p> <h2>步骤1：获取数据</h2> <pre><code># generate data import pandas as pd import numpy as np from random import choices,seed seed(1245) data = pd.DataFrame(list(zip(sorted(choices(range(0,10), k=20,)), choices(range(20,29), k=20))), columns=['a','b']) </code></pre> <h2>第2步：滞后1个长度</h2> <pre><code># lag opertion data_shift = data.shift(1,fill_value = -999) data_shift.columns = ["a_last","b_last"] # conbine them together to apply. If your data is huge, just call function on these 2 pieces of data data_flat = pd.concat([data,data_shift],axis = 1) data_flat.head() </code></pre> <p>输出：</p> <pre><code> a b a_last b_last 0 1 26 -999 -999 1 1 27 1 26 2 1 28 1 27 3 2 22 1 28 4 2 24 2 22 </code></pre> <h2>步骤3：定义custum函数，然后将观察结果分组</h2> <pre><code># define your function with args m,n def your_func(x,m,n): cond1 = (abs(x.a - x.a_last) <= m) cond2 = (abs(x.b - x.b_last) <= n) if cond1 & cond2: return 0 else: return 1 # calculate per row and get the group_id of samples groups = data_flat.apply(your_func,axis = 1,m=1,n=1).cumsum() # get the result data.groupby(groups).apply(lambda x:list(map(tuple,x.values))) </code></pre> <p>输出：</p> <pre><code>1 [(1, 26), (1, 27), (1, 28)] 2 [(2, 22)] 3 [(2, 24)] 4 [(3, 20)] 5 [(3, 26)] 6 [(4, 21), (4, 20)] 7 [(5, 28)] 8 [(5, 26), (5, 26)] 9 [(6, 28)] 10 [(6, 24)] 11 [(6, 28)] 12 [(7, 23)] 13 [(7, 26)] 14 [(8, 28), (8, 28)] 15 [(9, 26)] dtype: object </code></pre>

通过多列对数据帧中的连续项进行群集/分组

1 个回答

相关Python问题