从数据流中进行有或无权重的储层取样
weightreservoir的Python项目详细描述
这个模块带来了有效的储层取样方法,有无 体重。当你有一个非常大和未知的 大小为n的数据集,您希望对这些n个样本中的k个子集进行采样, 一个流或一个文件读取。
如果不存在重量,则每个样本将有同等的机会被选择 在最终子集中;如果使用权重,则每个样本将根据 为了他们的体重。
- 要安装
- pip安装重量贮存器
- 用作python中的模块
- 来自权重库导入库
- 使用均匀采样
均匀=储液罐。均匀取样(尺寸=10)
#向流中添加一个项并决定是否对其进行采样 统一.addOne(itemValue)
#将项目列表添加到流中,并决定是否对每个项目进行采样 uniform.addAll(项目值列表)
#获取采样数据集的所有当前项,作为列表返回 uniform.get()
- 使用加权采样
重量样本=储罐。重量样本(尺寸=10)
#向流中添加一项并决定是否按其重量取样 weight_sample.addone(项值,项权重)
#将项目列表添加到流中并决定是否按其权重对每个项目进行采样 weight_sample.addall(项目值列表,项目权重列表)
#获取采样数据集的所有当前项,作为列表返回 重量样本。获取()