用于注释和可视化基因融合的python包。

agfusion的Python项目详细描述


注释基因融合(agfusion)

agfusion是一个python包,用于注释来自人类或小鼠基因组的基因融合。agfusion只需要参考基因组、两个基因伙伴和融合连接坐标作为输入,并输出以下信息:

  • cdna、cds和蛋白质序列的fasta文件。
  • 可视化融合转录物的蛋白质结构域和外显子结构。
  • 保存列出融合中包含的蛋白质特征和外显子坐标的表格。
  • 野生型融合基因伴侣的外显子结构和蛋白质结构域可视化。

其他需要知道的事项:

  • agfusion自动预测基因融合的功能效应(如帧内、帧外等)。
  • 默认情况下,注释只对标准基因亚型进行,但可以选择注释所有基因非标准亚型组合。
  • 所有的基因和蛋白质注释都来自ensembl
  • 最多支持Ensembl Release 92

目录

示例

基本用法

你只需要提供两个融合基因伙伴(基因符号,ensembl id,或entrez基因id),它们在基因组坐标中预测的融合连接,以及基因组构建。您还可以使用ensembl transcript id或refseq id指定某些转录本

命令行中的示例用法:

agfusion annotate
  --gene5prime DLG1
  --gene3prime BRAF
  --junction5prime 31684294
  --junction3prime 39648486
  -db agfusion.mus_musculus.87.db
  -o DLG1-BRAF

dlg1-braf融合的蛋白质结构域:

alt tag

dlg1-braf融合的外显子结构:

alt tag

绘制野生型蛋白和外显子结构

您还可以使用--wt标记绘制每个基因的野生型蛋白质和外显子结构。

agfusion annotate \
   -g5 ENSMUSG00000022770 \
   -g3 ENSMUSG00000002413 \
   -j5 31684294 \
   -j3 39648486 \
   -db agfusion.mus_musculus.87.db \
   -o DLG1-BRAF \
   --WT

典型基因亚型

默认情况下,agfusion只绘制canonical基因亚型,但您可以告诉agfusion包含带有--noncanonic标志的非标准亚型。

agfusion annotate \
  -g5 ENSMUSG00000022770 \
  -g3 ENSMUSG00000002413 \
  -j5 31684294 \
  -j3 39648486 \
  -db agfusion.mus_musculus.87.db \
  -o DLG1-BRAF \
  --noncanonical

来自融合查找算法的输入

您可以提供来自Fusion查找算法的输入输出文件。当前支持的算法是:

  • 钟声
  • 断开融合
  • 嵌合体
  • 钟声镜
  • 解冻
  • ericscript
  • fusioncatcher
  • FusionHunter
  • FusionMap
  • 输液
  • 贾法
  • mapslice(仅当指定了--gene gtf时)
  • 恒星聚变
  • 顶帽融合

下面是fusioncatcher的一个示例。

agfusion batch \
  -f final-list_candidate-fusion-genes.txt \
  -a fusioncatcher \
  -o test \
  -db agfusion.mus_musculus.87.db

图形参数

您可以更改域名和颜色:

agfusion annotate \
  -g5 ENSMUSG00000022770 \
  -g3 ENSMUSG00000002413 \
  -j5 31684294 \
  -j3 39648486 \
  -db agfusion.mus_musculus.87.db \
  -o DLG1-BRAF \
  --recolor "Pkinase_Tyr;red" --recolor "L27_1;blue" \
  --rename "Pkinase_Tyr;Kinase" --rename "L27_1;L27"

alt tag

您可以重新缩放蛋白质长度,以便在并排绘制时,两个不同融合的图像具有适当的相对长度:

agfusion annotate \
  -g5 ENSMUSG00000022770 \
  -g3 ENSMUSG00000002413 \
  -j5 31684294 \
  -j3 39648486 \
  -db agfusion.mus_musculus.87.db \
  -o DLG1-BRAF \
  --recolor "Pkinase_Tyr;red" --recolor "L27_1;blue" \
  --rename "Pkinase_Tyr;Kinase" --rename "L27_1;L27" \
  --scale 2000
agfusion annotate \
  -g5 FGFR2 \
  -g3 DNM3 \
  -j5 130167703 \
  -j3 162019992 \
  -db agfusion.mus_musculus.87.db \
  -o FGFR2-DNM3 \
  --recolor "Pkinase_Tyr;red" \
  --rename "Pkinase_Tyr;Kinase" \
  --scale 2000

alt tagalt tag

安装

首先,您需要安装pyensembl(以及底部列出的其他依赖项),并通过运行以下操作之一下载您将使用的参考基因组。

For GRCh38/hg38:
pyensembl install --species homo_sapiens --release 87

For GRCh37/hg19:
pyensembl install --species homo_sapiens --release 75

For GRCm38/mm10:
pyensembl install --species mus_musculus --release 87

然后您可以安装agfusion:

pip install agfusion

最后,下载参考基因组的agfusion数据库(从here下载)。

For GRCh38/hg38:
agfusion download -g hg38

For GRCh37/hg19:
agfusion download -g hg19

For GRCm38/mm10:
agfusion download -g mm10

您可以使用agfusion download -a查看所有受支持的物种和ensembl版本。由于PyStANBL的局限性,最大支持的集成释放是87。

依赖关系

  • Python2.7,3.5
  • matplotlib>;=1.5.0
  • 熊猫>;=0.18.1
  • Biopython=1.67
  • 未来>;=0.16.0
  • Pyensembl>;=1.1.0

故障排除

问题:我收到如下警告消息:

2017-08-28 15:02:51,377 - AGFusion - WARNING - No cDNA sequence available for AC073283.4! Will not print cDNA sequence for the AC073283.4-MSH2 fusion. You might be working with an outdated pyensembl. Update the package and rerun 'pyensembl install'

解决方案:运行以下命令更新pyensembl包和数据库:

^{公关10}$

许可证

麻省理工学院许可证

引用agfusion

正在审阅的手稿。你现在可以引用BioXIV:^ {A14}

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
Android Java在活动之间传递值   java当实体中存在关系时,我可以只使用实体的id而不是从DB中获取实体吗?   bouncycastle Java运行SSHD服务器错误未找到类定义   java SWT/Swing>Threads n'Hell   java多线程数据库读取   java如何在Eclipse中轻松提交Git   java在哪里可以找到字符串相等比较的一组特定排序规则?   无连接表的java单向单域关系   java扩展三角文件   java spring。杰克逊。序列化。failonemptybeans   java无法加载请求的类:oracle。jdbc。驾驶员OracleDriver   java通过数组进行索引循环并打印出元素?   找不到eclipse错误类中的java提交Hadoop作业   Java:随机设定种子   java片段、异步任务和侦听器   java在分号后使用{}