用于注释和可视化基因融合的python包。
agfusion的Python项目详细描述
注释基因融合(agfusion)
agfusion是一个python包,用于注释来自人类或小鼠基因组的基因融合。agfusion只需要参考基因组、两个基因伙伴和融合连接坐标作为输入,并输出以下信息:
- cdna、cds和蛋白质序列的fasta文件。
- 可视化融合转录物的蛋白质结构域和外显子结构。
- 保存列出融合中包含的蛋白质特征和外显子坐标的表格。
- 野生型融合基因伴侣的外显子结构和蛋白质结构域可视化。
其他需要知道的事项:
- agfusion自动预测基因融合的功能效应(如帧内、帧外等)。
- 默认情况下,注释只对标准基因亚型进行,但可以选择注释所有基因非标准亚型组合。
- 所有的基因和蛋白质注释都来自ensembl
- 最多支持Ensembl Release 92
目录
示例
基本用法
你只需要提供两个融合基因伙伴(基因符号,ensembl id,或entrez基因id),它们在基因组坐标中预测的融合连接,以及基因组构建。您还可以使用ensembl transcript id或refseq id指定某些转录本
命令行中的示例用法:
agfusion annotate
--gene5prime DLG1
--gene3prime BRAF
--junction5prime 31684294
--junction3prime 39648486
-db agfusion.mus_musculus.87.db
-o DLG1-BRAF
dlg1-braf融合的蛋白质结构域:
dlg1-braf融合的外显子结构:
绘制野生型蛋白和外显子结构
您还可以使用--wt标记绘制每个基因的野生型蛋白质和外显子结构。
agfusion annotate \
-g5 ENSMUSG00000022770 \
-g3 ENSMUSG00000002413 \
-j5 31684294 \
-j3 39648486 \
-db agfusion.mus_musculus.87.db \
-o DLG1-BRAF \
--WT
典型基因亚型
默认情况下,agfusion只绘制canonical基因亚型,但您可以告诉agfusion包含带有--noncanonic标志的非标准亚型。
agfusion annotate \
-g5 ENSMUSG00000022770 \
-g3 ENSMUSG00000002413 \
-j5 31684294 \
-j3 39648486 \
-db agfusion.mus_musculus.87.db \
-o DLG1-BRAF \
--noncanonical
来自融合查找算法的输入
您可以提供来自Fusion查找算法的输入输出文件。当前支持的算法是:
- 钟声
- 断开融合
- 嵌合体
- 钟声镜
- 解冻
- ericscript
- fusioncatcher
- FusionHunter
- FusionMap
- 输液
- 贾法
- mapslice(仅当指定了--gene gtf时)
- 恒星聚变
- 顶帽融合
下面是fusioncatcher的一个示例。
agfusion batch \
-f final-list_candidate-fusion-genes.txt \
-a fusioncatcher \
-o test \
-db agfusion.mus_musculus.87.db
图形参数
您可以更改域名和颜色:
agfusion annotate \
-g5 ENSMUSG00000022770 \
-g3 ENSMUSG00000002413 \
-j5 31684294 \
-j3 39648486 \
-db agfusion.mus_musculus.87.db \
-o DLG1-BRAF \
--recolor "Pkinase_Tyr;red" --recolor "L27_1;blue" \
--rename "Pkinase_Tyr;Kinase" --rename "L27_1;L27"
您可以重新缩放蛋白质长度,以便在并排绘制时,两个不同融合的图像具有适当的相对长度:
agfusion annotate \
-g5 ENSMUSG00000022770 \
-g3 ENSMUSG00000002413 \
-j5 31684294 \
-j3 39648486 \
-db agfusion.mus_musculus.87.db \
-o DLG1-BRAF \
--recolor "Pkinase_Tyr;red" --recolor "L27_1;blue" \
--rename "Pkinase_Tyr;Kinase" --rename "L27_1;L27" \
--scale 2000
agfusion annotate \
-g5 FGFR2 \
-g3 DNM3 \
-j5 130167703 \
-j3 162019992 \
-db agfusion.mus_musculus.87.db \
-o FGFR2-DNM3 \
--recolor "Pkinase_Tyr;red" \
--rename "Pkinase_Tyr;Kinase" \
--scale 2000
安装
首先,您需要安装pyensembl(以及底部列出的其他依赖项),并通过运行以下操作之一下载您将使用的参考基因组。
For GRCh38/hg38:
pyensembl install --species homo_sapiens --release 87
For GRCh37/hg19:
pyensembl install --species homo_sapiens --release 75
For GRCm38/mm10:
pyensembl install --species mus_musculus --release 87
然后您可以安装agfusion:
pip install agfusion
最后,下载参考基因组的agfusion数据库(从here下载)。
For GRCh38/hg38:
agfusion download -g hg38
For GRCh37/hg19:
agfusion download -g hg19
For GRCm38/mm10:
agfusion download -g mm10
您可以使用agfusion download -a
查看所有受支持的物种和ensembl版本。由于PyStANBL的局限性,最大支持的集成释放是87。
依赖关系
- Python2.7,3.5
- matplotlib>;=1.5.0
- 熊猫>;=0.18.1
- Biopython=1.67
- 未来>;=0.16.0
- Pyensembl>;=1.1.0
故障排除
问题:我收到如下警告消息:
2017-08-28 15:02:51,377 - AGFusion - WARNING - No cDNA sequence available for AC073283.4! Will not print cDNA sequence for the AC073283.4-MSH2 fusion. You might be working with an outdated pyensembl. Update the package and rerun 'pyensembl install'
解决方案:运行以下命令更新pyensembl包和数据库:
^{公关10}$许可证
麻省理工学院许可证
引用agfusion
正在审阅的手稿。你现在可以引用BioXIV:^ {A14}