Fasta序列比对仪。
sequence_aligner的Python项目详细描述
#**aligner**
您所需要的只是一个标准的fasta文本
文件(.txt)。
运行以下命令:
```
aligner[-h]--file_path file_path[--storage_path storage_path][--results_name
results_name]
````
file path是fasta序列文本文件的路径。
file path是必需的,storage_path和file_name是可选的。
结果文件将存储在以下生成的目录中:
`/tmp/sequence\u results`
,文件名将使用以下模式生成:
`sequence\u read-<;datetime here>;.txt`例如:`sequence\u read-2016-07-01t16.42.21.246183.txt`
生成
,您将收到文件位置和名称的打印输出。
我创建了一个包含从“大于一半”到全长的所有
子序列的字典。
序列列表中的一个序列被指定为“锚定序列”。我发现在锚定序列的任何给定的状态下,
将存在一个具有最大重叠的序列。在序列列表中迭代
,识别出具有
最大“分数”的
子序列(来自上面提到的字典)的序列。分数基于与锚定序列重叠的
量。然后将该子序列合并到锚定序列中。此迭代将继续,直到序列列表中的所有
序列合并到锚
序列中。
注意事项/问题
*我处理的一个问题是速度。经过多次
重构的迭代,我能够将运行时间从大约45-50分钟减少到大约10-11分钟。
*这个程序假设序列重叠,并且没有
突变。
我的“得分”仅仅是基于锚定序列在给定状态下的重叠长度。
在开始对齐之前,可以进行更多的预处理,以便在所有序列对之间的“匹配”程度上得分。
您所需要的只是一个标准的fasta文本
文件(.txt)。
运行以下命令:
```
aligner[-h]--file_path file_path[--storage_path storage_path][--results_name
results_name]
````
file path是fasta序列文本文件的路径。
file path是必需的,storage_path和file_name是可选的。
结果文件将存储在以下生成的目录中:
`/tmp/sequence\u results`
,文件名将使用以下模式生成:
`sequence\u read-<;datetime here>;.txt`例如:`sequence\u read-2016-07-01t16.42.21.246183.txt`
生成
,您将收到文件位置和名称的打印输出。
我创建了一个包含从“大于一半”到全长的所有
子序列的字典。
序列列表中的一个序列被指定为“锚定序列”。我发现在锚定序列的任何给定的状态下,
将存在一个具有最大重叠的序列。在序列列表中迭代
,识别出具有
最大“分数”的
子序列(来自上面提到的字典)的序列。分数基于与锚定序列重叠的
量。然后将该子序列合并到锚定序列中。此迭代将继续,直到序列列表中的所有
序列合并到锚
序列中。
注意事项/问题
*我处理的一个问题是速度。经过多次
重构的迭代,我能够将运行时间从大约45-50分钟减少到大约10-11分钟。
*这个程序假设序列重叠,并且没有
突变。
我的“得分”仅仅是基于锚定序列在给定状态下的重叠长度。
在开始对齐之前,可以进行更多的预处理,以便在所有序列对之间的“匹配”程度上得分。