使用python正则表达式在字符串中搜索长度为6或更多的特定重复（mnr）

1 tgctccatatcagtgcagatcgcgcgatacattcctcagtaggaaaaaagttcagagatgataatcgtccgtccgggatttcagatgaaagaggctggaagtcaaggctttagcgggtaggaggttaatgatttt no 2 tatactatttagttctgcagtgagccttcatacaaagggatgtggagttgtcatatggggggctctgtatccggagttcggttttgcttgagactcaaatcggggttttcgtacat no 3 ccggctagtgagaggcttaagacatccagatatctcgaatagtaatagcagtcgaaaccgaaattaaaccccaatcactaatggcattcacataatgaatagtgcttactcgacctaagggcgaatt no 4 ttaattgatttttgtgcaaaaattgatattagagtattacccccgtattgctatgcgcctttctaattgactgattacgtgagacgcgcgggtttggagttcactgggcagacgcgagctacatttgccaggtacgact yes

import csv import re with open('sequences.txt','r') as f: reader = csv.reader(f,delimiter=",") for line in reader: seq=re.findall(r'[Aa]{6, }',reader) if line.__contains__(seq): print(line) with open('seqoutput.txt','w') as f: for line in list1: f.write(line)

1 tgctccatatcagtgcagatcgcgcgatacattcctcagtaggaaaaaagttcagagatgataatcgtccgtccgggatttcagatgaaagaggctggaagtcaaggctttagcgggtaggaggttaatgatttt no 2 tatactatttagttctgcagtgagccttcatacaaagggatgtggagttgtcatatggggggctctgtatccggagttcggttttgcttgagactcaaatcggggttttcgtacat no

Traceback (most recent call last): File "sequence.py", line 6, in <module> seq=re.findall(r'[Aa]{6, }',reader) File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/re.py", line 181, in findall return _compile(pattern, flags).findall(string) TypeError: expected string or buffer

2条回答

网友

1楼 · 编辑于 2024-10-05 13:20:53

您的csv.reader每次迭代都会产生一个列表，但是每行需要一个字符串。尝试使用简单文件打开或

reader = csv.reader(f,delimiter=" ") # tab split
for row in reader:
    sequence = row[1]
    seq=re.findall(r'[Aa]{6, }', sequence) # not reader

您的正则表达式可以扩展为其他字母：

re.findall(r'[Aa|Gg|Cc|Tt]{6,}', sequence)

网友

2楼 · 编辑于 2024-10-05 13:20:53

要找到至少有6个重复字符的序列，可以使用捕获组和反向引用。你知道吗

[atcg]*([atcg])\1{5}[atcg]*

将匹配：

[atcg]*匹配字符类中列出的任何字符0+次
([atcg])\1{5}在组1中捕获与列出的任何一个匹配的内容，并重复对组1的反向引用5次
[atcg]*匹配字符类中列出的任何字符0+次

Regex demo

您可以使用csv读取器并选择逗号作为分隔符（当您声明这是分隔符时，请注意示例数据中没有逗号）

如果是制表符，可以使用'\t'作为分隔符

如果sequence部分匹配，则使用相同的分隔符将行写入新文件。你知道吗

您的代码可能如下所示：

import re
import csv

seqout = open('seqoutput.txt', 'a')
with open('sequences.txt','r') as f:
    reader = csv.reader(f, delimiter=',')
    for row in reader:
        match = re.match(r'[atcg]*([atcg])\1{5}[atcg]*', row[1])
        if match:
            seqout.write(','.join(row) + "\n")
seqout.close()

相关问题更多 >

编程相关推荐

热门问题

热门文章