用于解析生物信息学文件或执行 与组装、注释和比较基因组学相关的计算。

AuthorsHaibao Tang (tanghaibao)
Vivek Krishnakumar (vivekkrish)
Jingping Li (Jingping)
Xingtan Zhang (tangerzhang)


以下模块可用作通用生物信息学处理 方法。

  • algorithms

  • 具有scip和glpk的线性规划求解器。

  • SuperMap:在Blast或Nucmer中找到一组不重叠的锚 输出。

  • 最长或最重的增加子序列。

  • 矩阵运算。

  • apps

  • genbank entrez access、phytozome、ensembl和sra下载程序。

  • 计算基因对之间的(非)同义替代率。

  • 使用phylip、phyml或raxml构建基本的系统发生树, 以及视觉化。

  • blast+、lastz、last、bwa、bowtie2、clc、cdhit、cap3等的包装纸。

  • formats

    当前支持.ace格式(phrap、cap3等),.agp (goldenpath),.bed格式,.blast输出,.btab格式, .coords格式(nucmer输出),.fasta格式,.fastq 格式,.fpc格式,.gff格式,obo格式(本体论), .psl格式(ucsc blat、gmap等),.posmap格式(celera 汇编器输出),.sam格式(读取映射),.contig格式 (TIGR装配格式)等

  • graphics

  • 爆炸或共点图。

  • 直方图使用r和ascii艺术。

  • 在染色体组上绘制区域。

  • 宏观和微观联合图。

  • utils

  • grouper可以用作不相交集数据结构。

  • 范围包含常见的范围操作,如重叠和链接。

  • 连接到JCVI内部数据库的Sybase连接器。

  • 杂项食谱,迭代器,装饰器,表 公用事业。


  • assembly
  • k-mer直方图分析。
  • 为基于克隆的程序集准备和验证平铺路径。
  • 通过竹子搭建,光学地图和遗传地图。
  • 装配前和装配后的质量控制程序。
  • annotation
  • 从头开始基因预测因子的训练。
  • 计算基因,外显子和内含子统计。
  • 用于PASA和EVM的包装。
  • 启动多个制造商流程。
  • compara
  • 基于c分数的爆破滤波器。
  • 联合扫描(从头开始)和提升(找到附近的锚)。
  • 利用Salkof和PAR方法进行祖先基因组重建。
  • 正畸和串联基因重复发现。


请访问wiki获取 全面的应用程序。同时访问我们的 Gallery看我们的 用于生成出版物就绪图形的图形功能。


下面是使用的第三方python包的列表 图书馆里的一些程序。这些依赖项是not必需的 因为它们只被少数模块使用。

在各种脚本中到处都有其他python模块。这个 最好的方法是在看到时通过pip install安装它们 ImportError



pip install jcvi


pip install git+git://github.com/tanghaibao/jcvi.git


cd ~/code  # or any directory of your choice
git clone git://github.com/tanghaibao/jcvi.git

请将上面的~/code替换为您喜欢的任何内容,但它必须 包含jcvi。为了避免每次都设置PYTHONPATH,请 在.bashrc.bash_profile中插入export命令。

另外,一些模块可能会要求外部pro的位置克, 如果在PATH中找不到扩展的。外部程序 常用的是:

此包中的大多数脚本包含多个操作。使用 fasta示例:

    python -m jcvi.formats.fasta ACTION

Available ACTIONs:
          clean | Remove irregular chars in FASTA seqs
           diff | Check if two fasta records contain same information
        extract | Given fasta file and seq id, retrieve the sequence in fasta format
          fastq | Combine fasta and qual to create fastq file
         filter | Filter the records by size
         format | Trim accession id to the first space or switch id based on 2-column mapping file
        fromtab | Convert 2-column sequence file to FASTA format
           gaps | Print out a list of gap sizes within sequences
      identical | Given 2 fasta files, find all exactly identical records
            ids | Generate a list of headers
           info | Run `sequence_info` on fasta files
          ispcr | Reformat paired primers into isPcr query format
           join | Concatenate a list of seqs and add gaps in between
     longestorf | Find longest orf for CDS fasta
           pair | Sort paired reads to .pairs, rest to .fragments
    pairinplace | Starting from fragment.fasta, find if adjacent records can form pairs
           pool | Pool a bunch of fastafiles together and add prefix
           qual | Generate dummy .qual file based on FASTA file
         random | Randomly take some records
         sequin | Generate a gapped fasta file for sequin submission
           some | Include or exclude a list of records (also performs on .qual file if available)
           sort | Sort the records by IDs, sizes, etc.
        summary | Report the real no of bases and N's in fasta files
           tidy | Normalize gap sizes and remove small components in fasta
      translate | Translate CDS to proteins
           trim | Given a cross_match screened fasta, trim the sequence
      trimsplit | Split sequences at lower-cased letters
           uniq | Remove records that are the same


python -m jcvi.formats.fasta extract


请随意查看包中的其他脚本,这不仅仅是 对于FASTA。


唐海宝等。(2015年)。jcvi:jcvi实用程序库。泽诺多。 10.5281/zenodo.31631

