nucdiff定位和分类两个密切相关的核苷酸序列之间的差异。

NucDiff的Python项目详细描述


#nucdiff手册它能够处理非常零碎的基因组、结构重排和各种局部差异。这些特性使得nucdiff非常适合相互比较程序集或与可用的参考基因组进行比较。

nucdiff提供有关差异类型及其位置的信息。可以将结果上传到基因组浏览器中进行可视化和进一步检查。它是用python编写的,使用mummer[1]中的numer包进行序列比较。

<;br>;<;br>;
2个先决条件
nucdiff可以在Linux和Mac操作系统上运行。它使用Python2.7、MummerV3.23和Biopython包。在运行nucdiff之前,mummer和biopython包应该安装在路径中。

mummer tarball可在http://sourceforge.net/projects/mummer/下载。
biopython包可在http://biopython.org/wiki/download下载。

<;br>;<;br>;
3运行nucdiff
3.1命令行语法和输入参数
以运行nucdiff,使用有效的输入参数运行"nucdiff.py"脚本:

```
$python nucdiff.py[-h][--reloc_dist[int]]
[--nucmer_opt[nummer_opt]
[--filter_opt[filter_opt]
[--delta_file[delta_file]
[--proc[int]
[--ref_name_full[{yes,no}]]
[--query_name_full[{yes,no}]]
[--vcf[{yes,无}]
[--version]
reference.fasta query.fasta output_dir prefix

````


positional参数:
**reference.fasta**-具有引用序列的fasta文件
**query.fasta**-具有查询的fasta文件sequences
**output_dir**-存储所有中间和最终结果的目录路径
**prefix**-将添加到所有生成文件(包括由numer创建的文件)的名称


--帮助**-显示此帮助消息并退出
**--reloc_dist**-两个重新定位的块之间的最小距离[10000]
**--numer_opt**-nummer run options。默认情况下,numer将使用其默认参数值运行,但--maxmatch参数除外。--maxmatch是硬编码的,不能更改。若要更改任何其他参数值,请在单引号或双引号内键入参数名称和新值。
**--filter_opt**-delta filter run options。默认情况下,它将仅与-q参数一起运行。-q是硬编码的,不能更改。要添加任何其他参数值,在单引号或双引号内键入参数名称及其值。
**--delta_file**-已存在的delta文件(numer输出文件)的路径
**--proc**-要使用的进程数[1]
**--ref_name_full**-打印输出文件中的完整引用名称("是"价值)。如果"否",则忽略第一个空格后的所有内容。['no']
**--query_name_full**-在输出文件中打印完整的查询名称("yes"值)。如果"否",则忽略第一个空格后的所有内容。['no']
**--vcf[{yes,no}]**-以vcf格式输出中小型本地差异['no']
**--version**-显示程序的版本号并退出

<;br>;<;br>;
3.2运行示例
具有nucdiff和nucmer预定义参数值的运行示例,nucmer—maxmatch参数和delta filter-q参数除外。--maxmatch是硬编码的,不能更改为-mum或-mumreference。-q也是硬编码的,不能改为-g或-r:

````
$python n nucdiff.py my_reference.fasta my_query.fasta my_output_dir my_prefix
````

<;br>;当用户需要更改nucmer和nucdiff默认参数值时的运行示例:

````
$python nucdiff.py--proc 5--ref_name_full yes--query_name full yes--nummer opt'-c 200-l 250'我的电脑参考.fasta我的电脑查询.fasta我的电脑输出目录我的电脑前缀
````
<;br>;<;br>;
有关所有可能的nummer和delta过滤器参数以及.delta和.coord输出文件的详细说明,请参见mummer手册http://mumer.sourceforge.net/manual/。

<;br>;<;br>;
4方法概述
4.1 nucdiff步骤
nucdiff工作流如图1所示。所有步骤的详细说明见[2]。

![]图1:NUCDIFF工作流
<;br>;
4.2差异类型
所有差异分为3组:全局、局部和结构(图2)。



![](figures_readme/types_of_differences.png)

在[2]和githhub wiki(https://github.com/uio-cels/nucdiff/wiki)中可以找到不同之处。


<;br>;<;br>;
5。nucdiff output
nucdiff将其输出放在`<;output_dir>;/results`目录中。输出包含9个文件:
*&lsaquo;prefix&rsaquo;\u ref&u snps.gff
*&lsaquo;prefix&rsaquo;\u ref&u struct.gff
*&lsaquo;prefix&rsaquo;&u ref&u blocks.gff
*&lsaquo;prefix&rsaquo;&u ref&snps.vcf
*&lsaquo;prefix&rsaquo;_查询"snps.gff
*&lsaquo;前缀&rsaquo;\u查询结构.gff
*&lsaquo;前缀&rsaquo;&u查询块.gff
*&lsaquo;前缀&rsaquo;&u查询snps.vcf
*&lsaquo;前缀&rsaquo;_ stat.out



所有输出文件的详细说明可以在githhub wiki(https://githhub.com/uio-cels/nucdiff/wiki)中找到。

分别为https://github.com/the-sequence-ontology/specifications/blob/master/gff3.md和https://samtools.github.io/hts-specs/vcfv4.2.pdf。

6.引用nucdiff

nucdiff:两组dna序列差异的深入表征和注释。生物信息学。2017年;18(1):338。doi:10.1186/s12859-017-1748-z.



<;br>;
\references
[1]kurtz s等人。用于比较大型基因组的通用开放软件。基因组生物学。2004;5(2):r12。doi 10.1186/gb-2004-5-2-r12.

[2]khelik等人。nucdiff:两组dna序列差异的深入表征和注释。生物信息学。2017年;18(1):338。doi:10.1186/s12859-017-1748-z。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
当我使用vert时使用java。要创建路由,地址已在使用中   java十六进制字符串到int的转换工作不正常   从Select语句生成的java JPA Hibernate ID值   javajavax。面孔。FacesException:未上载任何文件   java Android从getIntent()获取应用程序组件   java神经网络用于查找特定类型的网站?   java如何在将文件流写入outputStream时激活XSS?   java无法在tomcat服务器中部署Spring应用程序   聊天java Web服务器,http部分响应   java使用ObjectOutputStream在单个ZipOutputStream中写入多个ZipPentry   java如何使用空布局管理器在JPanel上添加滚动条?   java Cucumber功能文件未绑定到粘合路径   mysql Java从值数组中选择   java setOnItemClickListener()不处理片段的listView   java maven和eclipse构建冲突   java OkHttp:无法通过POST方法向服务器发送数据   java无法在recycler视图中为不同的视图持有者实现稳定的ID   java只有一个类可以实例化所有其他类