1不匹配的字符串分组

2024-10-01 00:31:56 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一组DNA序列,我想把它们分组,即基于相似性的聚类。文件看起来像

ATGCATGCATGCATGC
ATGCATGCATGCATGC
ATGCATGCATGCATGC
ATGCATGCATGCATGT
ATGCATGCATGCATGT
TTGCATGCATGCATGC
TTGCATGCATGCATGC
TTGCATGCATGCATGC
TTGCATGCATGCATGC
TTGCATGCATGCATGC

cat文件_名称.txt|排序| uniq-c

  3 ATGCATGCATGCATGC
  2 ATGCATGCATGCATGT
  5 TTGCATGCATGCATGC

通过这个我得到了数字和字符串,这是一种聚类。现在,我可以根据每个集群中的字符串数量过滤集群。你知道吗

但是我想在对数据分组时允许一个不匹配(在本例中,所有读取都归为一个组),我想知道什么是最好的方法。你知道吗

我可以将所有序列相互比较,计算汉明距离,并将汉明距离为0或1的读取分组在一起,但这是计算密集型的。你知道吗

我想知道有没有别的办法。你知道吗


Tags: 文件字符串txt名称距离排序集群序列