基因组组装、注释和比较基因组学的python实用程序库
jcvi的Python项目详细描述
用于解析生物信息学文件或执行 与组装、注释和比较基因组学相关的计算。
Authors | Haibao Tang (tanghaibao) |
Vivek Krishnakumar (vivekkrish) | |
Jingping Li (Jingping) | |
Xingtan Zhang (tangerzhang) | |
tanghaibao@gmail.com | |
License | BSD |
内容
以下模块可用作通用生物信息学处理 方法。
algorithms
具有scip和glpk的线性规划求解器。
SuperMap:在Blast或Nucmer中找到一组不重叠的锚 输出。
最长或最重的增加子序列。
矩阵运算。
apps
genbank entrez access、phytozome、ensembl和sra下载程序。
计算基因对之间的(非)同义替代率。
使用phylip、phyml或raxml构建基本的系统发生树, 以及视觉化。
blast+、lastz、last、bwa、bowtie2、clc、cdhit、cap3等的包装纸。
formats
当前支持.ace格式(phrap、cap3等),.agp (goldenpath),.bed格式,.blast输出,.btab格式, .coords格式(nucmer输出),.fasta格式,.fastq 格式,.fpc格式,.gff格式,obo格式(本体论), .psl格式(ucsc blat、gmap等),.posmap格式(celera 汇编器输出),.sam格式(读取映射),.contig格式 (TIGR装配格式)等
graphics
爆炸或共点图。
直方图使用r和ascii艺术。
在染色体组上绘制区域。
宏观和微观联合图。
utils
grouper可以用作不相交集数据结构。
范围包含常见的范围操作,如重叠和链接。
连接到JCVI内部数据库的Sybase连接器。
杂项食谱,迭代器,装饰器,表 公用事业。
然后是包含特定于域的方法的模块。
- assembly
- k-mer直方图分析。
- 为基于克隆的程序集准备和验证平铺路径。
- 通过竹子搭建,光学地图和遗传地图。
- 装配前和装配后的质量控制程序。
- annotation
- 从头开始基因预测因子的训练。
- 计算基因,外显子和内含子统计。
- 用于PASA和EVM的包装。
- 启动多个制造商流程。
- compara
- 基于c分数的爆破滤波器。
- 联合扫描(从头开始)和提升(找到附近的锚)。 利用Salkof和PAR方法进行祖先基因组重建。
- 正畸和串联基因重复发现。
依赖关系
下面是使用的第三方python包的列表 图书馆里的一些程序。这些依赖项是not必需的 因为它们只被少数模块使用。
在各种脚本中到处都有其他python模块。这个 最好的方法是在看到时通过pip install安装它们 ImportError。
安装
最简单的方法是通过pypi安装:
pip install jcvi
要安装开发版本:
pip install git+git://github.com/tanghaibao/jcvi.git
或者,如果要手动安装:
cd ~/code # or any directory of your choice git clone git://github.com/tanghaibao/jcvi.git exportPYTHONPATH=~/code:$PYTHONPATH
请将上面的~/code替换为您喜欢的任何内容,但它必须 包含jcvi。为了避免每次都设置PYTHONPATH,请 在.bashrc或.bash_profile中插入export命令。
另外,一些模块可能会要求外部pro的位置克, 如果在PATH中找不到扩展的。外部程序 常用的是:
此包中的大多数脚本包含多个操作。使用 fasta示例:
Usage: python -m jcvi.formats.fasta ACTION Available ACTIONs: clean | Remove irregular chars in FASTA seqs diff | Check if two fasta records contain same information extract | Given fasta file and seq id, retrieve the sequence in fasta format fastq | Combine fasta and qual to create fastq file filter | Filter the records by size format | Trim accession id to the first space or switch id based on 2-column mapping file fromtab | Convert 2-column sequence file to FASTA format gaps | Print out a list of gap sizes within sequences identical | Given 2 fasta files, find all exactly identical records ids | Generate a list of headers info | Run `sequence_info` on fasta files ispcr | Reformat paired primers into isPcr query format join | Concatenate a list of seqs and add gaps in between longestorf | Find longest orf for CDS fasta pair | Sort paired reads to .pairs, rest to .fragments pairinplace | Starting from fragment.fasta, find if adjacent records can form pairs pool | Pool a bunch of fastafiles together and add prefix qual | Generate dummy .qual file based on FASTA file random | Randomly take some records sequin | Generate a gapped fasta file for sequin submission some | Include or exclude a list of records (also performs on .qual file if available) sort | Sort the records by IDs, sizes, etc. summary | Report the real no of bases and N's in fasta files tidy | Normalize gap sizes and remove small components in fasta translate | Translate CDS to proteins trim | Given a cross_match screened fasta, trim the sequence trimsplit | Split sequences at lower-cased letters uniq | Remove records that are the same
然后您需要使用一个操作,您只需执行以下操作:
python -m jcvi.formats.fasta extract
这将告诉您它期望的选项和参数。
请随意查看包中的其他脚本,这不仅仅是 对于FASTA。
参考
唐海宝等。(2015年)。jcvi:jcvi实用程序库。泽诺多。 10.5281/zenodo.31631。