生物信息学代码库和脚本
biocode的Python项目详细描述
概述:这是一个生物信息学脚本的集合,许多人发现了有用的代码模块,这些模块使编写新脚本的速度大大加快。多年来,大多数生物信息学人都收集了一些小的实用脚本,这些脚本使他们的生活更容易。它们常常被保存在
私有存储库中或作为公共集合的一部分,而
没有其他人可以贡献。biocode是一个由
通用实用程序脚本组成的存储库,我和我的同事发现它很有用,希望与其他人共享。我还开发了一些代码
库/模块,这些代码使我的脚本编写工作简单得多。有些人发现这些比脚本本身更有用。
我想包括开发人员认为通常有用的任何
。对
语言选择没有限制,尽管大多数是python。目前,以下目录组成了初始分组,但将根据需要进行扩展:
-blast-如果使用、消息或只是重新格式化blast输出,则在此处进行。
-chado-绑定到chado架构(gmod.org)的脚本应在此处找到。
-fasta-过滤、转换、大小分布图等
-fastq-fasta较新姊妹格式的实用程序。
-genbank-与genbank有关吗?平面文件格式。
-常规-可能不适合任何其他现有的
目录或不需要创建自己的实用程序脚本。我们应该对放在这里的内容进行选择,并在适当的时候创建或使用其他目录。shu,gtf格式是脚本的焦点
这里。
-hmm-合并、操作或读取hmm库。
-sam\-bam-分析和解析sam/bam文件。
-沙盒-每个提交者在这里都有自己的个人目录,以便在测试或wai时添加他们想要的任何内容要移动到
生产目录。
-sysadmin-虽然不是特别的生物信息学,但我们的工作往往是在unix机器上进行的,通常需要实用脚本来支持我们的工作。从文件系统操作到数据库备份脚本,
将通用的系统管理实用程序放在这里。
-分类法-任何与分类法分析相关的功能。
如果您是开发人员,这些模块可以节省大量时间。是的,有一些重复的功能,你可以在biopython<;http://biopython.org/wiki/main_page>;``这样的模块中找到,但是这些都是为添加我一直想要的功能而编写的,并且有一个更注重生物学的api。
python的三个主要模块:
`biocode.biocode.things<;https://github.com/jorvis/biocode/biocode/blob/master/master/lib/biocode/things.py>;` ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~通过"sequence
本体论<;http://sequenceoorg/>;``以一种更具生物学意义的方式,隐藏了一些cs抽象。这是什么意思?这是一个简单的示例,但是比较以下语法方法:
:
提示:
genes=assembly.genes()
对于基因中的基因:
mrnas=gene.mrnas()
在这些图书馆里都有。它还为那些在处理有坐标的事物时总是让我恼火的任务添加了一些快捷方式。考虑一下,如果你想确定一个
基因是否在一个分子上的另一个之前:
::
锿。有很多其他的坐标比较方法,例如:
-thing1<;=thing2:thing1与thing2在5'端重叠
-thing1。包含在(thing2)内
-thing1.重叠(thing2)
-thing1.重叠大小与(thing2)
在
`源代码
<;https://github.com/jorvis/biocode/blob/master/lib/biocode/things.py>;` ` `.
` biocode.annotation<;https://github.com/jorvis/biocode/blob/master/lib/biocode/annotation.py~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
这组类允许函数注释
的正式定义,可以附加到各种biothing。其中包括基因产品
名称、基因符号、EC编号、GO术语等。一旦注释,
biothings可以用通用格式编写,如gff3、genbank、
ncbi tbl等。
`biocode.gff<;https://github.com/jorvis/biocode/blob/master/lib/biocode/gff.py>;``~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~是的使用这个
模块,您可以用一行代码将gff3注释文件解析为一组biothings
。例如:
:::
然后,您可以遍历程序集及其子程序,
或访问"feature s"dict,该dict在每个功能的id上设置键。
:
>pip3安装biocode
>pip3安装biocode
>pip3安装biocode
>获取代码(github,当前主干网,github)的代码
============
:
<重要**:pip3安装biocode biocode bioc第这些脚本使用biocode/lib
目录中的模块,因此需要将python指向它们。完整设置示例:
::
git clone https://github.com/jorvis/biocode.git
==
==
如果您遇到与现有代码有关的任何问题,或希望
请求新功能或脚本,请提交到"问题跟踪"系统<;https://github.com/jorvis/biocode/issues>;`\br/>
贡献
==
我想为这个集合贡献代码,请查看
《需求和约定》指南<;https://github.com/jorvis/biocode/blob/master/requirementsandconventionguide.md>;`\uuu
,然后在代码准备好后提交请求。我们将检查您的
脚本并将其拉入生产目录。如果您还不那么自信,如果您想将您的代码添加到项目中,但不确定它是否已经准备好位于生产目录中,我们将很高兴地拉入您的沙盒目录。
私有存储库中或作为公共集合的一部分,而
没有其他人可以贡献。biocode是一个由
通用实用程序脚本组成的存储库,我和我的同事发现它很有用,希望与其他人共享。我还开发了一些代码
库/模块,这些代码使我的脚本编写工作简单得多。有些人发现这些比脚本本身更有用。
我想包括开发人员认为通常有用的任何
。对
语言选择没有限制,尽管大多数是python。目前,以下目录组成了初始分组,但将根据需要进行扩展:
-blast-如果使用、消息或只是重新格式化blast输出,则在此处进行。
-chado-绑定到chado架构(gmod.org)的脚本应在此处找到。
-fasta-过滤、转换、大小分布图等
-fastq-fasta较新姊妹格式的实用程序。
-genbank-与genbank有关吗?平面文件格式。
-常规-可能不适合任何其他现有的
目录或不需要创建自己的实用程序脚本。我们应该对放在这里的内容进行选择,并在适当的时候创建或使用其他目录。shu,gtf格式是脚本的焦点
这里。
-hmm-合并、操作或读取hmm库。
-sam\-bam-分析和解析sam/bam文件。
-沙盒-每个提交者在这里都有自己的个人目录,以便在测试或wai时添加他们想要的任何内容要移动到
生产目录。
-sysadmin-虽然不是特别的生物信息学,但我们的工作往往是在unix机器上进行的,通常需要实用脚本来支持我们的工作。从文件系统操作到数据库备份脚本,
将通用的系统管理实用程序放在这里。
-分类法-任何与分类法分析相关的功能。
如果您是开发人员,这些模块可以节省大量时间。是的,有一些重复的功能,你可以在biopython<;http://biopython.org/wiki/main_page>;``这样的模块中找到,但是这些都是为添加我一直想要的功能而编写的,并且有一个更注重生物学的api。
python的三个主要模块:
`biocode.biocode.things<;https://github.com/jorvis/biocode/biocode/blob/master/master/lib/biocode/things.py>;` ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~通过"sequence
本体论<;http://sequenceoorg/>;``以一种更具生物学意义的方式,隐藏了一些cs抽象。这是什么意思?这是一个简单的示例,但是比较以下语法方法:
:
提示:
genes=assembly.genes()
对于基因中的基因:
mrnas=gene.mrnas()
在这些图书馆里都有。它还为那些在处理有坐标的事物时总是让我恼火的任务添加了一些快捷方式。考虑一下,如果你想确定一个
基因是否在一个分子上的另一个之前:
::
锿。有很多其他的坐标比较方法,例如:
-thing1<;=thing2:thing1与thing2在5'端重叠
-thing1。包含在(thing2)内
-thing1.重叠(thing2)
-thing1.重叠大小与(thing2)
在
`源代码
<;https://github.com/jorvis/biocode/blob/master/lib/biocode/things.py>;` ` `.
` biocode.annotation<;https://github.com/jorvis/biocode/blob/master/lib/biocode/annotation.py~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
这组类允许函数注释
的正式定义,可以附加到各种biothing。其中包括基因产品
名称、基因符号、EC编号、GO术语等。一旦注释,
biothings可以用通用格式编写,如gff3、genbank、
ncbi tbl等。
`biocode.gff<;https://github.com/jorvis/biocode/blob/master/lib/biocode/gff.py>;``~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~是的使用这个
模块,您可以用一行代码将gff3注释文件解析为一组biothings
。例如:
:::
然后,您可以遍历程序集及其子程序,
或访问"feature s"dict,该dict在每个功能的id上设置键。
:
>pip3安装biocode
>pip3安装biocode
>pip3安装biocode
>获取代码(github,当前主干网,github)的代码
============
:
<重要**:pip3安装biocode biocode bioc第这些脚本使用biocode/lib
目录中的模块,因此需要将python指向它们。完整设置示例:
::
==
==
如果您遇到与现有代码有关的任何问题,或希望
请求新功能或脚本,请提交到"问题跟踪"系统<;https://github.com/jorvis/biocode/issues>;`\br/>
贡献
==
我想为这个集合贡献代码,请查看
《需求和约定》指南<;https://github.com/jorvis/biocode/blob/master/requirementsandconventionguide.md>;`\uuu
,然后在代码准备好后提交请求。我们将检查您的
脚本并将其拉入生产目录。如果您还不那么自信,如果您想将您的代码添加到项目中,但不确定它是否已经准备好位于生产目录中,我们将很高兴地拉入您的沙盒目录。