计算满足条件的连续值数(Pandas Dataframe)

2024-10-01 09:30:49 发布

您现在位置:Python中文网/ 问答频道 /正文

所以我在2天前就我的问题写了一篇this的帖子,并得到了一个令人欣慰的答案。在

我有20行2500列的数据。每列都是一个独特的产品,行是时间序列,是测量的结果。因此,每个产品测量20次,共有2500个产品。在

这一次,我想知道我的测量结果可以保持在特定阈值以上的连续行数。 AKA:我想计算一个值以上的连续值的数目,比如5。在

A=[1,2,687,3,2,3,610,2,1,0,2] 我们用粗体显示这些值,根据我上面的定义,结果应该是NumofConsFeature=3。(如果满足条件的系列超过1个,则取最大值)

我想用.gt进行过滤,然后获取索引,然后使用循环来检测连续的索引号,但无法使其正常工作。在

在第二阶段,我想知道我连续系列的第一个值的指数。对于上面的例子,应该是3。 但我不知道怎么做这个。在

提前谢谢。在


Tags: 数据答案gt定义产品时间序列阈值
3条回答

有一个简单的方法。
假设你的列表如下:A=[1,2,6,8,7,6,8,3,2,3,6,10,6,7,8,2,1,0,2]
你想知道有多少连续序列的值大于6且长度为5。例如,这里你的答案是2。有两个序列的值大于6,且序列的长度为5。在python和pandas中,我们如下所示:

 condition = (df.wanted_row > 6) & \
            (df.wanted_row.shift(-1) > 6) & \
            (df.wanted_row.shift(-2) > 6) & \
            (df.wanted_row.shift(-3) > 6) & \
            (df.wanted_row.shift(-4) > 6)

consecutive_count = df[condition].count().head(1)[0]

这是一个带有^{}-

# https://stackoverflow.com/a/52718782/ @Divakar
def maxisland_start_len_mask(a, fillna_index = -1, fillna_len = 0):
    # a is a boolean array

    pad = np.zeros(a.shape[1],dtype=bool)
    mask = np.vstack((pad, a, pad))

    mask_step = mask[1:] != mask[:-1]
    idx = np.flatnonzero(mask_step.T)
    island_starts = idx[::2]
    island_lens = idx[1::2] - idx[::2]
    n_islands_percol = mask_step.sum(0)//2

    bins = np.repeat(np.arange(a.shape[1]),n_islands_percol)
    scale = island_lens.max()+1

    scaled_idx = np.argsort(scale*bins + island_lens)
    grp_shift_idx = np.r_[0,n_islands_percol.cumsum()]
    max_island_starts = island_starts[scaled_idx[grp_shift_idx[1:]-1]]

    max_island_percol_start = max_island_starts%(a.shape[0]+1)

    valid = n_islands_percol!=0
    cut_idx = grp_shift_idx[:-1][valid]
    max_island_percol_len = np.maximum.reduceat(island_lens, cut_idx)

    out_len = np.full(a.shape[1], fillna_len, dtype=int)
    out_len[valid] = max_island_percol_len
    out_index = np.where(valid,max_island_percol_start,fillna_index)
    return out_index, out_len

def maxisland_start_len(a, trigger_val, comp_func=np.greater):
    # a is 2D array as the data
    mask = comp_func(a,trigger_val)
    return maxisland_start_len_mask(mask, fillna_index = -1, fillna_len = 0)

样本运行-

^{pr2}$

您可以在序列上应用diff(),然后只计算差值为1且实际值高于截止值的连续条目数。最大计数是连续值的最大数目。在

第一次计算diff()

df = pd.DataFrame({"a":[1, 2, 6, 7, 8, 3, 2, 3, 6, 10, 2, 1, 0, 2]})
df['b'] = df.a.diff()

df
     a    b
0    1  NaN
1    2  1.0
2    6  4.0
3    7  1.0
4    8  1.0
5    3 -5.0
6    2 -1.0
7    3  1.0
8    6  3.0
9   10  4.0
10   2 -8.0
11   1 -1.0
12   0 -1.0
13   2  2.0

现在计算连续序列:

^{pr2}$

相关问题 更多 >