从fasta文件中通过头中的ID号提取序列

>1016BSA34080.1 MTHSVRIITVTVNFLQHRFFIDYMSEIGLLDGEIEQMVSALQEQVHIVARARTLPEMKNLERDTHVIVKT LKKQLTAFHSEVKKIADSTQRSRYEGKHQTYEAKVKDLEKELRTQIDPPPKSVSEKHMEDLMGEGGPDGS GFKTTDQVLRAGIRIQNDA >1038BSA81955.1 MQQQQARRRMEEPTAAAATASSTTSFAAQPLLSRSVAPQAASSPQASARLAESAGFRSAAVFGSAQAAVG GRGRGGFGAPPGRGGFGAPPAAGFGAAPAFGAPPTLQAFSAAPAPGGFGAPPAPQGFGAPRAAGFGAPPA PQAFSAVAPASSTAIPLDVTTYLGDTFGSAPTRGPP

1条回答

网友

1楼 · 发布于 2024-09-20 05:51:06

accessionids.txt是否只包含四位数代码？在

如果是，请将accessorID更改为：

accessorID = accessorIDWithArrow[1:5]

一些方法可以让这更像Python：

使用集合而不是字典，使用strip()而不是切片来删除换行符，并使用生成器表达式来构建集合

^{pr2}$

使用True和{}，而不是skip的0和1。在

我将重做主循环：

in_accession_ids = False
for line in f1:
    if line[0] == '>':
        _splitline = line.split('|')
        accessorIDWithArrow = _splitline[0]
        accessorID = accessorIDWithArrow[1:5]
        # print accessorID
        in_accession_ids = accessorID in AI_SET
    if in_accession_ids:
        f3.write(line)

我觉得这样的逻辑就更明显了。另外，从原始的skip = 0开始，或者在我的中以in_accession_ids=True开始，这意味着您将在找到第一个序列头之前打印所有内容。这可能是你想要的，也可能不是——我在重写本中假设没有。在

你可能最终会想看看Biopython的收集-对于这个特定的任务来说，它有点过分了，但总体来说还是相当不错的。很多工具可以用来读取FASTA文件和相关格式，等等。在

http://biopython.org/wiki/Biopython

相关问题更多 >

编程相关推荐

热门问题

热门文章