解析GenBank文件：get location tag vs produ问题的回答

解析GenBank文件：get location tag vs produ

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

基本上，GenBank文件由基因条目组成（由“gene”声明，然后是相应的“CDS”条目（每个基因只有一个条目），就像下面我展示的两个条目一样。我想在一个以制表符分隔的两列文件中获取location_tag vs product“gene”和“CDS”前面和后面总是有空格。在 <a href="https://stackoverflow.com/questions/21888945/parsing-genbank-file">A previous question suggested a script.</a> 问题是，似乎因为“product”的名称中有时有“/”字符，它与此脚本有冲突，据我所知，是使用“/”作为字段分隔符来存储数组中的信息？在 我想解决这个问题，要么修改这个脚本，要么构建另一个脚本。在 <pre><code>perl -nE' BEGIN{ ($/, $") = ("CDS", "\t") } say "@r[0,1]" if @r= m!/(?:locus_tag|product)="(.+?)"!g and @r>1 ' file gene complement(8972..9094) /locus_tag="HAPS_0004" /db_xref="GeneID:7278619" CDS complement(8972..9094) /locus_tag="HAPS_0004" /codon_start=1 /transl_table=11 /product="hypothetical protein" /protein_id="YP_002474657.1" /db_xref="GI:219870282" /db_xref="GeneID:7278619" /translation="MYYKALAHFLPTLSTMQNILSKSPLSLDFRLLFLAFIDKR" gene 68..637 /locus_tag="HPNK_00040" CDS 68..637 /locus_tag="HPNK_00040" /codon_start=1 /transl_table=11 /product="NinG recombination protein/bacteriophage lambda NinG family protein" /protein_id="CRESA:HPNK_00040" /translation="MIKPKVKKRKCKCCGGEFKSADSFRKWCSAECGVKLAKIAQEKA RQKAIEKRNREERAKIKATRERLKSRSEWLKDAQAIFNEYIRLRDKDEPCISCRRFHQ GQYHAGHYRTVKAMPELRFNEDNVHKQCSACNNHLSGNITEYRINLVRKIGAERVEAL ESYHPPVKWSVEDCKEIIKTYRAKIKELK" </code></pre>

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

解析GenBank文件：get location tag vs produ

1 个回答

相关Python问题