使用python正则表达式在字符串中搜索长度为6或更多的特定重复（mnr）问题的回答

使用python正则表达式在字符串中搜索长度为6或更多的特定重复（mnr）

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我有一个制表符分隔的csv文件包含3个逗号分隔的字段：数字，序列和状态。每一行代表一个不同的序列。你知道吗 输入文件的一个例子序列.txt地址： <pre><code>1 tgctccatatcagtgcagatcgcgcgatacattcctcagtaggaaaaaagttcagagatgataatcgtccgtccgggatttcagatgaaagaggctggaagtcaaggctttagcgggtaggaggttaatgatttt no 2 tatactatttagttctgcagtgagccttcatacaaagggatgtggagttgtcatatggggggctctgtatccggagttcggttttgcttgagactcaaatcggggttttcgtacat no 3 ccggctagtgagaggcttaagacatccagatatctcgaatagtaatagcagtcgaaaccgaaattaaaccccaatcactaatggcattcacataatgaatagtgcttactcgacctaagggcgaatt no 4 ttaattgatttttgtgcaaaaattgatattagagtattacccccgtattgctatgcgcctttctaattgactgattacgtgagacgcgcgggtttggagttcactgggcagacgcgagctacatttgccaggtacgact yes </code></pre> 我想写一个程序来扫描每个序列，并检查6个或更多的单体核苷酸重复（mnr）（大写或小写并不重要，我正在寻找两者）。如果我找到一个符合该条件的序列，那么我应该将整行打印到一个新的输出文件中（包含所有3个字段）。你知道吗 定义：单体核苷酸是：A、T、C、G的重复序列（不区分大小写） mnr在一行中的重复将是这样的：aaaaaagtc或gtaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaacccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccc。。。你知道吗 我尝试了正则表达式，但不起作用： <pre><code>import csv import re with open('sequences.txt','r') as f: reader = csv.reader(f,delimiter=",") for line in reader: seq=re.findall(r'[Aa]{6, }',reader) if line.__contains__(seq): print(line) with open('seqoutput.txt','w') as f: for line in list1: f.write(line) </code></pre> 预期产量： <pre><code>1 tgctccatatcagtgcagatcgcgcgatacattcctcagtaggaaaaaagttcagagatgataatcgtccgtccgggatttcagatgaaagaggctggaagtcaaggctttagcgggtaggaggttaatgatttt no 2 tatactatttagttctgcagtgagccttcatacaaagggatgtggagttgtcatatggggggctctgtatccggagttcggttttgcttgagactcaaatcggggttttcgtacat no </code></pre> 电流输出： <pre><code>Traceback (most recent call last): File "sequence.py", line 6, in <module> seq=re.findall(r'[Aa]{6, }',reader) File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/re.py", line 181, in findall return _compile(pattern, flags).findall(string) TypeError: expected string or buffer </code></pre>

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

使用python正则表达式在字符串中搜索长度为6或更多的特定重复（mnr）

1 个回答

相关Python问题