全自动高通量排序分析的最佳实践管道
bcbio-nextgen的Python项目详细描述
验证的、可扩展的、社区开发的变异调用、rna序列和小rna 分析。编写一个高级配置文件,指定输入和 分析参数。此输入驱动处理分布式的并行运行 执行、等幂处理重新启动和安全事务步骤。BCBIO公司 提供处理数据处理组件的共享社区资源 为研究人员提供更多的时间关注 下游生物。
功能
- 社区发展:我们欢迎贡献者,目标是 克服生物学、算法和计算方面的挑战 在复杂的管道上工作的单个开发人员 快速变化的研究领域。有关示例,请参见我们的users page 对于bcbio nextgen部署和 关于贡献的提示。
- 安装:A single installer script准备所有 第三方软件、数据库和系统配置文件。
- Automated validation:将变量调用与公共引用进行比较 材料或样本特定的snp数组,以确保调用的正确性。 结合多种方法进行校准、制备和 变量调用可以实现算法的无偏比较。
- 分布式:关注parallel analysis and scaling来处理 大群体研究和全基因组分析。单程跑步 多核计算机,在使用IPython parallel的计算集群中, 或者在亚马逊云上。请参阅parallel documentation以获取完整信息 细节。
- 多种分析算法:bcbio nextgen提供可配置的 variant calling, RNA-seq and small RNA pipelines。
快速启动
Installbcbio-nextgen包含所有工具依赖项和数据文件:
wget https://raw.github.com/bcbio/bcbio-nextgen/master/scripts/bcbio_nextgen_install.py python bcbio_nextgen_install.py /usr/local/share/bcbio --tooldir=/usr/local \ --genomes GRCh37 --aligners bwa --aligners bowtie2
生成引用已安装的 软件、数据和系统信息。
Automatically create a processing description样本fastq和bam文件 从您的项目,和一个csv文件的样本元数据:
bcbio_nextgen.py -w template freebayes-variant project1.csv sample1.bam sample2_1.fq sample2_2.fq
运行分析,分布在8个本地核心:
cd project1/work bcbio_nextgen.py ../config/project1.yaml -n 8
文档
请参阅full documentation和longer analysis-based articles。我们欢迎使用GitHub的增强功能或问题报告 关于biovalidation mailing list的讨论。
贡献者
- Miika Ahdesmaki,阿斯利康
- Luca Beltrame,IRCC“Mario Negri”药理研究所,意大利米兰
- Christian Brueffer,瑞典隆德隆德大学
- Alla Bushoy,阿斯利康
- Guillermo Carrasco,斯德哥尔摩生命科学实验室
- Nick Carriero,西蒙斯基金会
- Brad Chapman,哈佛陈生物信息学核心
- Saket Choudhary,南加州大学
- Peter Cock,詹姆斯赫顿研究所
- Matthias De Smet,比利时根特大学医院医学遗传学中心
- Matt Edwards,麻省理工学院
- Mario Giovacchini,斯德哥尔摩生命科学实验室
- Karl Gutwin,生物素
- Jeff Hammerbacher,西奈山伊坎医学院
- Oliver Hofmann,墨尔本大学癌症研究中心
- John Kern
- Rory Kirchner,哈佛陈生物信息学核心
- Tetiana Khotiainsteva,阿迪根
- Jakub Nowacki,阿斯利康
- John Morrissey,哈佛陈生物信息学核心
- Lorena Pantano,哈佛陈生物信息学核心
- Brent Pedersen,科罗拉多大学丹佛分校
- James Porter,芝加哥大学
- Valentine Svensson,斯德哥尔摩生命科学实验室
- Paul Tang,旧金山大学
- Stephen Turner,弗吉尼亚大学
- Roman Valls,斯德哥尔摩生命科学实验室
- Kevin Ying,加文医学研究所,悉尼,澳大利亚
- Vlad Saveliev,圣彼得堡大学算法生物技术中心
许可证
代码可以在MIT license下免费获得。