我有这样的数据:
>Px016979
MSPWMKKVFLQCMPKLLMMRRTKYSLPDYDDTFVSNGYTNELEMSRDSLT
DAFGNSKEDSGDYRKSPAPEDDMVGAGAYQRPSVTESENMLPRHLSPEVA
AALQSVRFIAQHIKDADKDNEVVEDWKFMSMVLDRFFLWLFTIACFVGTF
GIIFQSPSLYDTRVPVDQQISSIPMRKNNFFYPKDIETIGIIS
>Px016980
MQFIKKVLLIALTLSGAMGISREKRGLIFPPTSLYGTFLAIAVPIDIPDK
NVFVSYNFESNYSTLNNITEIDEVLFPNLPVVTARHSRSITRELAYTVLE
TKFKEHGLGGRECLLRNICEAAETPLHHNGLLGHIMHIVFTPSSSAEEGL
DDEYYEAEASGRAGSCARYEELCPVGLFDLITRIVEFKHT
>Px002185
MLSPSVAIKVQVLYIGKVRISQRKVPDTLIDDALVKFVHHEAEKVKANML
RRHSLLSSTGTSIYSSESAENLNEDKTKTDTSEHNIFLMMLLRAHCEAKQ
LRHVHDTAENRTEFLNQYLGGSTIFMKAKRSLSSGFDQLLKRKSSRDEGS
GLVLPVKKVT
>Px006321
MFPGRTIGIMITASHNLEPDNGVKLVDPDGEMLDGSWEEIATRMANVRYL
PMSLITKFLVNSYY
我想做的是如果我有号码>;Px016979或我可以得到下面的数据就像是这个:
^{pr2}$我是Python新手。在
^{3}$我的代码不能工作。我有两个问题:
我想我的数据有回车,所以我的代码不能工作。
我不知道如何在Python正则表达式中使用变量。如果我写re.match( r'>Px016797(.*?)>',a,re.M|re.I)
它可以工作,但我需要使用变量。
谢谢。在
以下内容适用于您拥有的每个条目:
这将显示以下内容:
^{pr2}$看起来你的数据是一个包含蛋白质序列的FASTA文件。因此,您应该考虑安装BioPython,而不是使用正则表达式。这是一个专门用于生物信息学使用和研究的图书馆。在
使用BioPython,可以按照以下方式从FASTA文件中提取给定标识符的序列:
我也会考虑安装biopython并查看免费在线的《python for biologics》(http://pythonforbiologists.com/)一书。我与fastas一起工作过很多次,对于一个快速而肮脏的解决方案,您可以使用以下方法(将其余代码保持原样):
因为雷多尔标记,并查找“>;”字符之间的任意数量的任何内容。 请注意,这会给你一个列表,而不是一个对象。根据我的经验,重新匹配人们学习的第一件事是,他们往往在寻找关于芬德尔. 在
相关问题 更多 >
编程相关推荐