擅长:python、mysql、java
<p>另一个选择是创建一个随机掩码,如果您只想按某个因素对数据进行下采样。假设我想将样本减少到原始数据集的25%,该数据集当前保存在数组<code>data_arr</code>:</p>
<pre><code># generate random boolean mask the length of data
# use p 0.75 for False and 0.25 for True
mask = numpy.random.choice([False, True], len(data_arr), p=[0.75, 0.25])
</code></pre>
<p>现在您可以调用<code>data_arr[mask]</code>并返回约25%的行,随机采样。</p>