在Python中解析公共数据库中的生物序列的脚本

import os, re, sys, string printsdb = open('/users/spyros/folder1/python/PRINTSmotifs/prints41_1.kdat', 'r') protname = None final_motifs = [] for line in printsdb.readlines(): if line.startswith('gc;'): protname = line.lstrip() #string.lower(name) # convert to lowercase break def extract_final_motifs(protname): """Extracts the sequences of the 'final motifs sets' for a PRINTS entry. Sequences are on lines starting 'fd;' A simple regex is used for retrieval""" for line in printsdb.readlines(): if line.startswith('fd;'): final_motifs = re.compile('^\s+([A-Z]+)\s+<') final_motifs = final_motifs.match(line) #print(final_motifs.groups()[0]) motif_dict = {protname : final_motifs} break return motif_dict = extract_final_motifs('ADENOSINER') print(motif_dict)

2条回答

网友

1楼 · 编辑于 2024-05-05 16:00:48

您是否注意到您的函数不返回值？这就是为什么没有。在

网友

2楼 · 编辑于 2024-05-05 16:00:48

首先，您所做的几乎是正确的，但是您必须将"extracted motif sets"连2更改为一个变量，比如line。for循环的作用是逐行返回文件中的数据，作为for后面的变量，本例是line。现在问题是lysozyme.seq文件是如何格式化的。听起来好像没有任何数据字段有任何间距。那就意味着你可能不用做line.split(" ")或line.split("\t")\tmeas标签。split将执行它所说的，每次看到" "或{}时，它都会拆分字符串，这取决于您在程序中编写的内容。在

在Saning目录中查找文件应该不难，这里可能有一些问题。在

如果你发布的数据或部分的形式之一的文件，以便我们可以看到它，我们可能可以帮助你pars它：）。在

相关问题更多 >

编程相关推荐

热门问题

热门文章