SAM文件分析,保持唯一的不一致记录。
unique-sam的Python项目详细描述
独特的sam
unique sam是一个简单的命令行工具,用于删除重复的 SAM文件中的对齐。 如果对齐的mapq字段可用,unique sam将保持 只有一个和最高得分一致。否则, unique sam将根据路线的md或 雪茄字段并使用计算值移除重复的 对准。
安装
使用源代码安装,在源文件夹中:
python setup.py install
如果你有**pip** 安装后,您只需运行
pip install unique-sam
安装后,您可以通过命令访问unique sam。 行。
用法
unique sam需要一个sam格式文件才能正常运行。使用前 unique-sam命令,我们必须根据 QNAME字段。你可以用samtools来达到这个目的, 有关更多帮助,请参阅samtools:
samtools sort --help
对于基本用法,在命令行环境中:
unique-sam input.sam -o output.sam
-s参数
如果您没有访问samtools的权限,可以使用 unique-sam:
unique-sam -s input.sam -o output.sam
unique-sam的排序功能实现为
- 从原始sam文件复制临时文件
- 提取sam文件的头
- 使用bash sort程序对对齐进行排序
-k参数
-k参数提供如何提取对齐的控件 key from qname字段-k的参数是正则的 表达式。你应该用括号把关键部分分组。**例如 1**>;问题名称: N|GACGCGGATCTT/500407:4:H03E5AFXX:1:21109:5977:6969_2:N:0:ATACAA>;>; -k'(.*)\_[1-2](.*)'>;gt;键将是: N|GACGCGGATCTT/500407:4:H03E5AFXX:1:21109:5977:6969:N:0:ATACAA>; 它将删除qname的_1/2部分。
**例如2**>;qname:HWI-ST667_0147:1:1101:1128:2079#CGATGT/1>; >;-k'(.*)\/[1-2]'>;gt;键将是: HWI-ST667_0147:1:1101:1128:2079#CGATGT>;它将删除 /1/2qname的一部分。
有关unique sam的更多信息,请运行:
unique-sam --help
独特的策略
以下策略可用于找到唯一和最佳的对齐方式
- 保持得分最高的一对。如果不止一个 两人的“最高分数”相同,这两人将 远离的。
- READ1和READ2应该映射到不同的链上。
- 由读对决定的段长度应大于 0.7*读取长度
日志文件
所有删除的对齐都将写入日志文件input.sam.log 在当前文件夹下。日志文件的每一行都以符号和 然后是删除的路线(中的原始路线记录 input.sam)。这个符号描述了为什么 应删除对齐。这些符号的规格是 下表中列出:
|符号描述----–!。| 错误行<;低分对齐=对 有多个最佳分数~读取对映射到 同一串?段长度太短-。| 标记字段或未映射段中的READ1/2信息无效
版权所有
版权所有(C)2015dlmeduLi@163.com