基于树型集合回归的可扩展基因调控网络推理
arboretum的Python项目详细描述
The most satisfactory definition of man from the scientific point of view is probably Man the Tool-maker.
从基因表达数据推断基因调控网络(grn)是一项计算成本很高的任务,由于技术的进步,数据量越来越大,这一问题更加严重。 在高通量基因分析技术中。
arboretum软件库通过提供计算策略来解决这个问题,该策略允许执行GRN推理算法类 以从单台计算机到多节点计算集群的硬件上的GENIE3[1]为例。这类grn推理算法的定义如下 一系列步骤,网络中每个目标基因对应一个步骤,其中一组调控因子中最重要的候选基因通过回归确定 预测目标基因表达谱的模型。
从计算的角度来看,这类grn推理算法的成员具有吸引力,因为它们本质上是可并行的。在植物园, 我们将可并行计算指定为dask图[2],这是一种表示计算任务调度的数据结构。dask调度程序分配 dask图中的任务到可用的计算资源。植物园使用dask distributed调度程序 将计算任务分散到一台或多台计算机上运行的多个进程上。
植物园目前支持两种GRN推理算法:
- grnboost2:使用Stochastic Gradient Boosting Machine(sgbm)[3]回归和early-stopping正则化的快速grn推理算法。
- genie3:使用Random Forest(rf)或ExtraTrees(et)回归的经典grn推理算法。
参考文献
- huynh thu va,irrthum a,wehenkel l l,geurts p(2010)使用基于树的方法从表达数据推断调控网络。公共科学图书馆一号
- Rocklin,M.(2015年)。dask:具有阻塞算法和任务调度的并行计算。在第14届Python科学会议记录(第130-136页)。
- Friedman,J.H.(2002年)。随机梯度增强。计算统计与数据分析,38(4),367-378。
- Marbach,D.,Costello,J.C.,Kuffner,R.,Vega,N.M.,Prill,R.J.,Camacho,D.M.,…和Dream5财团。(2012年)。群体智慧用于稳健的基因网络推理。自然方法,9(8),796-804。
开始
植物园的构思考虑到了生物信息学家或数据科学家的工作。我们提供了大量的文档和示例,帮助您加快使用库的速度。
- 阅读arboretum documentation。
- 浏览示例notebooks。
- 报告issue。
许可证
BSD 3条款许可证