带有fasta头的python regex

网友

1楼 · 编辑于 2024-10-02 16:22:30

你不需要正则表达式。在第二个部分选择“>：

text = '>4L type=chromosome; loc=6L:1.733034524; ID=4L; length=4534673; 
release=r2.32; species=Homo;
CCAACATATTGTGCTAATGAGTGCCTCTCGTTCTCTGTCTTATATTACCG
CAAACCCAAAAAGACAATACACGACAGAGAGAGAGAGCAGCGGAGATATT
TAGATTGCCTATTAAATATGATCGCGTATGCGAGAGTAGTGCCAACATAT
TGTGCTCTCTATATAATGACTGCCTCTCATTCTGTCTTATTTTACCGCAA'

test = test.split('>')[1]

print(test)

网友

2楼 · 编辑于 2024-10-02 16:22:30

要使用正则表达式提取所需的信息（忽略对正），请执行以下操作：

import re

text = '''>4L type=chromosome; loc=6L:1.733034524; ID=4L; length=4534673; 
release=r2.32; species=Homo;
CCAACATATTGTGCTAATGAGTGCCTCTCGTTCTCTGTCTTATATTACCG
CAAACCCAAAAAGACAATACACGACAGAGAGAGAGAGCAGCGGAGATATT
TAGATTGCCTATTAAATATGATCGCGTATGCGAGAGTAGTGCCAACATAT
TGTGCTCTCTATATAATGACTGCCTCTCATTCTGTCTTATTTTACCGCAA'''
# need . to match a new line.
result = re.search("\>(.*)", text, flags=re.DOTALL)
if result:
    print(result.groups(1))

打印以下内容：

^{pr2}$

所以，也许你需要去掉新行，也许用这样丑陋的东西：

result.groups(1)[0].replace("\n","")

网友

3楼 · 编辑于 2024-10-02 16:22:30

因为读取的每个序列都是多行的（根据FASTA标准），正则表达式不太可能是最佳的工具。这是因为regex模式通常用于处理文件，逐行搜索特定模式，而FASTA中的头行和序列行通常不共享这样一个通用的格式/模式。在

你有没有试过看一个专门为提取FASTA记录而设计的工具？Biopython有一个专门用于处理FASTA/Q序列的module。在

相关问题更多 >

编程相关推荐

热门问题

热门文章

带有fasta头的python regex

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >