如何用指定列表的索引替换数组的所有项？

sequence = np.array(sequence) cl = np.concatenate(labeller) _, cl_idx = np.unique(cl, return_index=True) _, idx = np.unique(sequence[cl_idx], return_index=True) tags = np.repeat(np.arange(len(lsizes)), lsizes)[idx] #output: [0 0 1 1 0 1 1 1 2 2]

2条回答

网友

1楼 · 编辑于 2024-10-04 11:23:01

方法#1

对于那些追溯问题，^{}似乎是一种方法，在这里也可以使用，重新使用cl-

cl = np.concatenate(labeller)
sidx = cl.argsort()
idx = np.searchsorted(cl, sequence, sorter=sidx)
idx0 = sidx[idx]

l = list(map(len, labeller))
r = np.repeat(np.arange(len(l)), l)
out = r[idx0]

对l使用lsizes使其完全矢量化。但是，我怀疑连接步骤可能很繁重。这是否值得，在很大程度上取决于子阵列的长度

方法#2

对于正数，这里有一个数组索引作为散列机制-

N = max(map(max, labeller))+1
id_ar = np.zeros(N, dtype=int) # use np.empty for perf. boost
for i,l in enumerate(labeller):
    id_ar[l] = i
out = id_ar[sequence]

网友

2楼 · 编辑于 2024-10-04 11:23:01

sequence = [1, 2, 10, 5, 6, 4, 3, 8, 7, 9]
labeller = [[1, 2, 10], [3, 4, 5, 6, 7], [8, 9]]
lsizes = [3, 5, 2]

sequence_array = np.array(sequence)
labeller_array = np.array(labeller).sum()
index_array = np.repeat(list(range(len(lsizes))), lsizes)

np.apply_along_axis(lambda num : index_array[np.where(labeller_array == num)[0]], 0, sequence_array[None, :])
# output: array([[0, 0, 0, 1, 1, 1, 1, 2, 1, 2]])

备选方案：

label_df = pd.DataFrame({'label':labeller_array, 'index':index_array})
seq_df = pd.DataFrame({'seq':sequence_array})
seq_df.merge(label_df, left_on = 'seq', right_on = 'label')['index'].tolist()
#output: [0, 0, 0, 1, 1, 1, 1, 2, 1, 2]

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何用指定列表的索引替换数组的所有项？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >