基于树型集合回归的可扩展基因调控网络推理

arboreto的Python项目详细描述


arboretoBuild StatusDocumentation StatusPyPI package
The most satisfactory definition of man from the scientific point of view is probably Man the Tool-maker.

从基因表达数据推断基因调控网络(grn)是一项计算成本很高的任务,由于技术的进步,数据量越来越大,这一问题更加严重。 在高通量基因分析技术中。

arboreto软件库通过提供计算策略来解决这个问题,该策略允许执行GRN推理算法类 以从单台计算机到多节点计算集群的硬件上的GENIE3[1]为例。这类grn推理算法的定义如下 一系列步骤,数据集中每个目标基因一个,其中一组调控因子中最重要的候选基因是通过回归确定的 预测目标基因表达谱的模型。

从计算的角度来看,这类grn推理算法的成员具有吸引力,因为它们本质上是可并行的。在树顶, 我们将可并行计算指定为dask图[2],这是一种表示计算任务调度的数据结构。dask调度程序分配 dask图中的任务到可用的计算资源。arboreto使用dask distributed调度程序 将计算任务分散到一台或多台计算机上运行的多个进程上。

Arboreto目前支持两种GRN推理算法:

  1. grnboost2:使用Stochastic Gradient Boosting Machine(sgbm)[3]回归和early-stopping正则化的快速grn推理算法。
  2. genie3:使用Random Forest(rf)或ExtraTrees(et)回归的经典grn推理算法。

参考文献

  1. huynh thu va,irrthum a,wehenkel l l,geurts p(2010)使用基于树的方法从表达数据推断调控网络。公共科学图书馆一号
  2. Rocklin,M.(2015年)。dask:具有阻塞算法和任务调度的并行计算。在第14届Python科学会议记录(第130-136页)。
  3. Friedman,J.H.(2002年)。随机梯度增强。计算统计与数据分析,38(4),367-378。
  4. Marbach,D.,Costello,J.C.,Kuffner,R.,Vega,N.M.,Prill,R.J.,Camacho,D.M.,…和Dream5财团。(2012年)。群体智慧用于稳健的基因网络推理。自然方法,9(8),796-804。

开始

阿博托的构想是与工作的生物信息学家或数据科学家的想法。我们提供了大量的文档和示例,帮助您加快使用库的速度。

许可证

BSD 3条款许可证

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java需要一种简单的方法来创建用于排序的comparator类   java getReadableDatabase和getWriteableDatabase无法解析   查找列表<Long>中与某个元素对应的所有索引的java方法   安卓将视图添加到ViewFlipper会导致java。StackOverflowerr语言   java根据它所包含的长“curTime”类字段将N的列表拆分为24(小时)   Android N中的Java8流API   自动生成Java策略文件的安全性   垃圾收集鼓励Java中的主要GC(但不是STW GC)   java如何检查UDP服务器上侦听的客户端数量   在前一台主机被Datastax Java驱动程序关闭后,Cassandra尝试重新连接到下一台主机   java如何使用Spring Boot创建部分代理   java是否有一个网站或资源可以完全比较EJB版本   java无需使用第三方库从gradle生成输出   继承由于这个多态性的基本示例中的语法有什么不同吗?(爪哇)   java字符串数组中的空字符串   java为什么CMS中的初始标记阶段是串行的   为什么Lucene有时与InChIKeys不匹配?   安卓通知Java应用程序数据库中的更改   java如何将单个json对象值解析为按钮   java打印堆栈将运行时错误跟踪到文件