1不匹配的字符串分组

2024-10-01 00:31:56 发布

男 | 程序猿一只，喜欢编程写python代码。

我有一组DNA序列，我想把它们分组，即基于相似性的聚类。文件看起来像

ATGCATGCATGCATGC
ATGCATGCATGCATGC
ATGCATGCATGCATGC
ATGCATGCATGCATGT
ATGCATGCATGCATGT
TTGCATGCATGCATGC
TTGCATGCATGCATGC
TTGCATGCATGCATGC
TTGCATGCATGCATGC
TTGCATGCATGCATGC

cat文件_名称.txt|排序| uniq-c

  3 ATGCATGCATGCATGC
  2 ATGCATGCATGCATGT
  5 TTGCATGCATGCATGC

通过这个我得到了数字和字符串，这是一种聚类。现在，我可以根据每个集群中的字符串数量过滤集群。你知道吗

但是我想在对数据分组时允许一个不匹配（在本例中，所有读取都归为一个组），我想知道什么是最好的方法。你知道吗

我可以将所有序列相互比较，计算汉明距离，并将汉明距离为0或1的读取分组在一起，但这是计算密集型的。你知道吗

我想知道有没有别的办法。你知道吗

Tags：文件字符串 txt 名称距离排序集群序列

0条回答

目前没有回答

1不匹配的字符串分组

相关问题更多 >

编程相关推荐

热门问题

热门文章

1不匹配的字符串分组

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >