使用python对fasta序列的顺序进行排序

>S.sclerotiorum_Ch16_153_209 AACCCTAACCCTAACCCTTGATTGATTGATTGATTGATTGAT TGATTGATGAAATTATAGTCTCCGTAAAGCAAATAAAGCATT TAGTAAACGTTGAAGAGCTAGAAAAGCTTTAATACAAAAAGG >S.sclerotiorum_Ch16_153_209 AACCCTAACCCTAACCCTTGATTGATTGATTGATTGATTGAT TAGTAAACGTTGAAGAGCTAGAAAAGCTTTAATACAAAAAGG >S.sclerotiorum_Ch14_442_1137 TGTCAATTCGATCTAGTATT >S.sclerotiorum_Ch12_1831_180 AGAGCTAGAAAAGCTTTAAT >S.sclerotiorum_Ch1_1831_180 AGAGCTAGAAAAGCTTTAATAGAGCTAGAAAAGCTTTAAT AGAGCTAGAAAAGCTTTAATAGAGCTAGAAAAGCTTTAAT

>S.sclerotiorum_Ch1_1831_180 AGAGCTAGAAAAGCTTTAATAGAGCTAGAAAAGCTTTAAT AGAGCTAGAAAAGCTTTAATAGAGCTAGAAAAGCTTTAAT >S.sclerotiorum_Ch12_1831_180 AGAGCTAGAAAAGCTTTAAT >S.sclerotiorum_Ch14_442_1137 TGTCAATTCGATCTAGTATT >S.sclerotiorum_Ch16_153_209 AACCCTAACCCTAACCCTTGATTGATTGATTGATTGATTGAT TAGTAAACGTTGAAGAGCTAGAAAAGCTTTAATACAAAAAGG >S.sclerotiorum_Ch16_153_209 AACCCTAACCCTAACCCTTGATTGATTGATTGATTGATTGAT TGATTGATGAAATTATAGTCTCCGTAAAGCAAATAAAGCATT TAGTAAACGTTGAAGAGCTAGAAAAGCTTTAATACAAAAAGG

#!/usr/bin/env python import sys import os import pathlib myfasta = sys.argv[1] fasta = open(myfasta) #types = ['S.sclerotiorum_Ch16_', 'S.sclerotiorum_Ch15_', 'S.sclerotiorum_Ch14_', 'S.sclerotiorum_Ch13_', 'S.sclerotiorum_Ch12_', 'S.sclerotiorum_Ch11_', 'S.sclerotiorum_Ch10_', 'S.sclerotiorum_Ch9_', 'S.sclerotiorum_Ch8_', 'S.sclerotiorum_Ch7_', 'S.sclerotiorum_Ch6_', 'S.sclerotiorum_Ch5_', 'S.sclerotiorum_Ch4_', 'S.sclerotiorum_Ch3_', 'S.sclerotiorum_Ch2_', 'S.sclerotiorum_Ch1_'] types = ['S.sclerotiorum_Ch1', 'S.sclerotiorum_Ch2', 'S.sclerotiorum_Ch3', 'S.sclerotiorum_Ch4', 'S.sclerotiorum_Ch5', 'S.sclerotiorum_Ch6', 'S.sclerotiorum_Ch7', 'S.sclerotiorum_Ch8', 'S.sclerotiorum_Ch9', 'S.sclerotiorum_Ch10', 'S.sclerotiorum_Ch11', 'S.sclerotiorum_Ch12', 'S.sclerotiorum_Ch13', 'S.sclerotiorum_Ch14', 'S.sclerotiorum_Ch15', 'S.sclerotiorum_Ch16'] for type in range(len(types)): flag = False fasta = open(myfasta) for line in fasta: if line.startswith('>') and types[type] in line: flag = True elif line.startswith('>'): flag = False if flag: #grabbed = line.strip() #newfasta.writelines(grabbed + "\n") print(line.strip()) fasta.close

1条回答

网友

1楼 · 发布于 2024-09-30 00:37:33

您可以使用re.findall模式来匹配一行，然后是以非>字符开头的行，还可以将数字分组在Ch之后，使用sorted根据数字对匹配项进行排序，并使用str.join将排序后的子字符串连接回字符串：

import re
''.join(s for s, _ in sorted(re.findall(r'(.*_Ch(\d+)_.*\n(?:[^>].*\n)*)', f), key=lambda t: int(t[1])))

给定存储在f中的输入字符串（应首先将整个文件读入该变量），返回：

>S.sclerotiorum_Ch1_1831_180
AGAGCTAGAAAAGCTTTAATAGAGCTAGAAAAGCTTTAAT
>S.sclerotiorum_Ch12_1831_180
AGAGCTAGAAAAGCTTTAAT
>S.sclerotiorum_Ch14_442_1137
TGTCAATTCGATCTAGTATT
>S.sclerotiorum_Ch16_153_209
AACCCTAACCCTAACCCTTGATTGATTGATTGATTGATTGAT
TGATTGATGAAATTATAGTCTCCGTAAAGCAAATAAAGCATT
TAGTAAACGTTGAAGAGCTAGAAAAGCTTTAATACAAAAAGG
>S.sclerotiorum_Ch16_153_209
AACCCTAACCCTAACCCTTGATTGATTGATTGATTGATTGAT
TAGTAAACGTTGAAGAGCTAGAAAAGCTTTAATACAAAAAGG

相关问题更多 >

编程相关推荐

热门问题

热门文章