我在fastq文件中有36次这样的nt读取:atcttgttcaatggccgatcXXXXgtcgacaatcaa
XXXX是不同的条形码。我想在文件中的确切位置(21到24)搜索条形码,并打印序列,其中最多有3个不匹配的序列不是条形码。在
例如:
我有条形码:aacg
在fastq文件中的第21位到第24位之间搜索条形码,允许3个不匹配的序列,如:
atcttgttcaatggccgatcaacggtcgacaatcac # it has 1 mismatch
ttcttgttcaatggccgatcaacggtcgacaatcac # it has 2 mismatch
tccttgttcaatggccgatcaacggtcgacaatcac # it has 3 mismatch
我试图先用awk找到独特的线条,然后寻找不匹配的地方,但这对我来说是非常乏味的。在
^{pr2}$我能找到什么捷径吗?在
谢谢。在
使用Python:
使用python regex模块可以指定不匹配的数量
使用捕获组时,第四组(3)将是条形码
使用Python:
相关问题 更多 >
编程相关推荐