相关Kmer项目
RK的Python项目详细描述
相对K-mer项目
摘要
WGS分析显示弯曲杆菌的扩展自然转化影响诊断和病原体适应能力。
运行标题:弯曲菌杂交株
的WGS分析Julia C.Golz 1a、Lennard Epping 2、Marie Theres Knüver 1a、Maria Borowiak 1b、Felix Hartkopf 2、Carlus Deneke 1b、Burkhard Malorny 1b、Torsten Semmler 2、Kerstin Stingl 1a*
1德国联邦风险评估研究所,生物安全部,弯曲菌国家参考实验室,b基因组测序和分析研究中心,德国柏林 2罗伯特科赫研究所,微生物基因组学,柏林,德国
#分享第一作者
*通讯作者
在过去的十年里,弯曲菌感染在世界范围内越来越普遍。这些感染可导致腹泻、腹痛、发烧、头痛、恶心和/或呕吐,对公众健康构成严重威胁。这促使人们努力改善预防、治疗和减少传播。正如Kaakoush等人[1]进一步指出的,主要风险是动物产品和水的消费、与动物的接触和国际旅行。在
由于Campylobacter对公众健康的威胁程度不同,因此鉴别危险的Campylobacter种并研究其基因型和表型特征具有重要意义。在这项工作中,kmer是用来描述杂交事件和物种重组的方法。因此,我们分析了空肠弯曲菌和{em1}$大肠弯曲菌的杂交种,以验证该方法的有效性,并开发一个可应用于一般新兴杂交种的工作流。这将有助于对杂交种进行快速可靠的分类。在
KMC3[2]和BEDTools[5]用于提取Campylobacter基因组的kmers,并计算两个物种及其杂交种的共享kmers。随后,这些kmers可以与Blast[3]和Bowtie 2[4]结合使用,以选择与杂交基因组共享的基因。这些基因可以被分为一批参与单个重组事件的基因。用R生成的基因覆盖率的可视化提供了关于所选基因的进一步信息。在
这项工作将为杂交分析提供一个新的通用工具,可以扩展到其他细菌,并使研究人员能够以快速可靠的方式对新物种和重组事件进行分类。在
[1]全球弯曲菌感染流行病学
Nadeem O.Kaakoush、Natalia CastañO-Rodríguez、Hazel M.Mitchell、Si Ming Man
微生物学(2015年6月10日)临床评论
[2] Marek Kokot,Maciej Długosz,Sebastian Deorowicz,KMC 3:计数和操纵k-mer统计,生物信息学,第33卷,第17期,2017年9月1日,第2759-2761页,https://doi.org/10.1093/bioinformatics/btx304
[3] 斯蒂芬·阿尔特舒尔、沃伦·吉什、韦伯·米勒、尤金·W·迈尔斯、大卫·J·利普曼,
基本局部比对搜索工具,《分子生物学杂志》,第215卷,第3期,1990年,第403-410页,ISSN 0022-2836,https://doi.org/10.1016/S0022-2836(05)80360-2。
[4] Langmead B,Salzberg S.快速间隙读取对准领结2。自然方法。2012年9:357-359。
[5] Aaron R.Quinlan,Ira M.Hall,BEDTools:用于比较基因组特征的灵活实用工具套件,生物信息学,第26卷,第6期,2010年3月15日,第841-842页,https://doi.org/10.1093/bioinformatics/btq033
要求
或者
- Python 3.X版
- 数量=1.17.3
- matplotlib=3.1.2
- 熊猫=0.25.3
- 生物圈=1.76
- argparse=1.4.0
- tqdm=4.41.1
- kmc=3.1.1
- 船首2=2.3.5
- 床上工具=2.29.2
- r=3.6
- pheatmap=1.0.12
- gplots=3.0.1.1
- 冲击波=2.9.0
- 萨姆特工具=1.10
- bedops=2.4.37
- 序号=0.11.0
安装
更改到RKP存储库中的src目录:
cd path/to/repo/src
创建包含RKP所需的所有依赖项的环境:
^{pr2}$激活RKP环境:
conda activate RKP
运行RKP:
python RKP.py -A <acceptor genome dir A> -B <hybrid genome dir B> -C <donor genome dir C> -k <kmerlength> -a <acceptor treshold> -c <donor threshold> -g <acceptor reference genome fasta> -f <acceptor refernecs genome gff> -o <output directory>
所需参数:
Parameter | Description |
---|---|
-A, -C | Two directories with genomes (.fna) of acceptor and donor |
-B | Directory with genomes (.fasta) and fnn files of hybrids |
-k | Length of kmers |
-at | Relative amount (0 to 1) of isolates of acceptor that should have kmer x |
-dt | Relative amount (0 to 1) of isolates of donor that should have kmer x |
-g | acceptor reference genome |
-f | acceptor reference gff file |
-o | output directory |
可选参数:
^{tb2}$输出文件结构
output
│
│
│
└───Acceptor
│ │ (only temporary files)
│
└───Hybrid
| │ *_iso_seq_protein.fasta
| | *_iso_seq.fasta
| | mapping_result_Genes_count.csv
| | mapping_result_Genes_cutoff_20.csv
| | mapping_result_Genes_raw.csv
| | mapping_result.csv
| | mapping_result.pdf
| | recombination_cov_<kmerLength>_W50.pdf
| | recombination_cov_<kmerLength>_W100.pdf
| | recombination_cov_<kmerLength>_W200.pdf
| | recombination_cov_<kmerLength>_W300.pdf
| | recombination_cov_<kmerLength>_W400.pdf
| | recombination_cov_<kmerLength>_W500.pdf
| | Recombination_result_<kmerLength>_W50.csv
| | Recombination_result_<kmerLength>_W100.csv
| | Recombination_result_<kmerLength>_W200.csv
| | Recombination_result_<kmerLength>_W300.csv
| | Recombination_result_<kmerLength>_W400.csv
| | Recombination_result_<kmerLength>_W500.csv
|
└───Donor
| │ (only temporary files)
|
└───RKP.log
调用结构
graph TD; RKP.py-->create_kmers.sh; create_kmers.sh-->map_kmers.sh; RKP.py-->heatmap.R;
工作流程
- 项目
标签: