从一个非常长的iterable中随机抽取的样本，在python中

3条回答

网友

1楼 · 编辑于 2024-05-10 04:01:31

使用O(n)算法Rhttps://en.wikipedia.org/wiki/Reservoir_sampling，从iterable中选择k随机元素：

import itertools
import random

def reservoir_sample(iterable, k):
    it = iter(iterable)
    if not (k > 0):
        raise ValueError("sample size must be positive")

    sample = list(itertools.islice(it, k)) # fill the reservoir
    random.shuffle(sample) # if number of items less then *k* then
                           #   return all items in random order.
    for i, item in enumerate(it, start=k+1):
        j = random.randrange(i) # random [0..i)
        if j < k:
            sample[j] = item # replace item with gradually decreasing probability
    return sample

示例：

^{pr2}$

{cd4{2}来自^代码。在

网友

2楼 · 编辑于 2024-05-10 04:01:31

因为您知道iterable返回的数据的长度，所以可以使用xrange()快速生成iterable的索引。然后可以运行iterable，直到获取所有数据：

import random

def sample(it, length, k):
    indices = random.sample(xrange(length), k)
    result = [None]*k
    for index, datum in enumerate(it):
        if index in indices:
            result[indices.index(index)] = datum
    return result

print sample(iter("abcd"), 4, 2)

另一种方法是使用“算法R”实现保留采样：

^{pr2}$

注意，算法R没有为结果提供随机顺序。在给定的示例中，'b'永远不会在结果中的'a'之前。

网友

3楼 · 编辑于 2024-05-10 04:01:31

如果您需要一个固定频率的原始迭代器的子集（即，如果生成器生成10000个数字，您希望“统计地”生成100个数字，如果它生成1000000个数字，则需要10000个数字—始终为1%），那么您应该将迭代器包装在一个构造中，生成概率为1%的内循环结果。在

因此，我想您需要的是一个固定数量的样本，这些样本来自于一个未知基数的源，就像您提到的Perl算法一样。在

您可以将迭代器包装在一个拥有自己的小内存的结构中，以便跟踪库，并以降低概率的方式循环它。在

import random

def reservoir(iterator, size):
    n = size
    R = iterator[0:n]
    for e in iterator:
        j = random.randint(0, n-1)
        n = n + 1
        if (j < size):
                R[j] = e
    return R

所以

^{pr2}$

可能会打印出来

[656, 774, 828]

我已经尝试生成100万发子弹，并用这个滤波器比较了三列的分布（我预期是高斯分布）。在

#                get first column and clean it
python file.py | cut -f 1 -d " " | tr -cd "0-9\n" \
    | sort | uniq -c | cut -b1-8 | tr -cd "0-9\n" | sort | uniq -c

虽然还不是真正的高斯分布，但在我看来已经足够好了。在

相关问题更多 >

编程相关推荐

热门问题

热门文章