我有一组DNA序列,我想把它们分组,即基于相似性的聚类。文件看起来像
ATGCATGCATGCATGC
ATGCATGCATGCATGC
ATGCATGCATGCATGC
ATGCATGCATGCATGT
ATGCATGCATGCATGT
TTGCATGCATGCATGC
TTGCATGCATGCATGC
TTGCATGCATGCATGC
TTGCATGCATGCATGC
TTGCATGCATGCATGC
cat文件_名称.txt|排序| uniq-c
3 ATGCATGCATGCATGC
2 ATGCATGCATGCATGT
5 TTGCATGCATGCATGC
通过这个我得到了数字和字符串,这是一种聚类。现在,我可以根据每个集群中的字符串数量过滤集群。你知道吗
但是我想在对数据分组时允许一个不匹配(在本例中,所有读取都归为一个组),我想知道什么是最好的方法。你知道吗
我可以将所有序列相互比较,计算汉明距离,并将汉明距离为0或1的读取分组在一起,但这是计算密集型的。你知道吗
我想知道有没有别的办法。你知道吗
目前没有回答
相关问题 更多 >
编程相关推荐