从一个大fi模式的特定出现中提取名称问题的回答

从一个大fi模式的特定出现中提取名称

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我有一个FASTA文件，它基本上是一个文本文件，用于描述生物序列数据（<a href="https://blast.ncbi.nlm.nih.gov/Blast.cgi?CMD=Web&PAGE_TYPE=BlastDocs&DOC_TYPE=BlastHelp" rel="nofollow noreferrer">https://blast.ncbi.nlm.nih.gov/Blast.cgi?CMD=Web&PAGE_TYPE=BlastDocs&DOC_TYPE=BlastHelp</a>），其中包含超过10000个FASTA序列（从&gt；开始）。文件的开头如下所示： <pre><code>>Gene A GAACTACACAAACGTAAAATGTAAAACAAAGGTATAAATTCCAGAAGTTGGACAGACATATATAGACAGCACATATATTA TCTTTATTTTTTTATGTATGATAACATTAAATATAACGTTCAACAATT >Gene B GAACTACACAAACGTAAAATGTAAAACAAAGGTATAAATTCCAGAAGTTGGACAGACATATATAGACAGCACATATATTA TCTTTATTTTTTTATGTATGATAACATTAAATATAACGTTCAACAATTACACCGTTAGCAGTGTGAGCAAAAACGATTAA AAAGTAAATATTATAAAAGCCCTC >Gene C AACAACAAATTGCCATCTACCCGTTTGAATCCTGTAATAATAACTTGCCCAGATTTGCTGCAGCATACTCCTAGAGTTGG GCTGGGTGGCCCACACAAGCGATAATAACATTTAACAATTGTTTGATATATGTACTTTTTTTTAAGTTTTTTTCTCCTCG TACTTGCCTTCCAAAAACTCGTTAGCTTTGTACACATACGCCTTTAATTAAAATACTGATAGATGCGTACCACTTACGTC ATTAGAAAAAGTCACCAAAAGGAAAAATATGGACGACACAAGAACGAGGAGATCTAAGCCACTCGTAGACCACTAAGCAC AAAATACCCGAAAAATATAACTGATATGATTGCCAACTACCCTGCGACTATGTAAACCCAACCTTCCCCCCTCCTTTACC CTCTTATTCAAATCGACGCGTGTGTAGAAGATACACTTATTATATTTTTTTTCTGAGATACAATTATAAACACAAAAACG ACTTTTAACTATATATTAAATAAAAACAAAAGGAAAAACATAATAATTT >Gene D AACAACAAATTGCCATCTACCCGTTTGAATCCTGTAATAATAACTTGCCCAGATTTGCTGCAGCATACTCCTAGAGTTGG GCTGGGTGGCCCACACAAGCGATAATAACATTTAACAATTGTTTGATATATGTACTTTTTTTTAAGTTTTTTTCTCCTCG TACTTGCCTTCCAAAAACTCGTTAGCTTTGTACACATACGCCTTTAATTAAAATACTGATAGATGCGTACCACTTACGTC ATTAGAAAAAGTCACCAAAAGGAAAAATATGGACGACACAAGAACGAGGAGATCTAAGCCACTCGTAGACCACTAAGCAC AAAATACCCGAAAAATATAACTGATATGATTGCCAACTACCCTGCGACTATGTAAACCCAACCTTCCCCCCTCCTTTACC CTCTTATTCAAATCGACGCGTGTGTAGAAGATACACTTATTATATTTTTTTTCTGAGATACAATTATAAACACAAAAACG ACTTTTAACTATATATTAAATAAAAACAAAAGGAAAAACATAATAATTT </code></pre> 以此类推，大约有10000个基因。我想： <ol> <li>找出哪些基因包含特定的模式（CTTTGTA）</li> <li>这种模式在那个基因中出现了多少次？你知道吗</li> <li>以模式的频率导出包含模式的基因名列表。你知道吗</li> </ol> 欢迎使用Bash或Python（或R）的任何解决方案。你知道吗 另外，到目前为止我已经尝试过但没有成功：将基因及其序列提取到不同的文件中，然后在不同的文件中对模式进行grep。但是，我不能生成这些单独的文件。我曾经 <pre><code>grep '^>' file.txt > new_file.txt </code></pre> 但是我得到的结果是一个文件，只包含所有的基因名。你知道吗

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

从一个大fi模式的特定出现中提取名称

1 个回答

相关Python问题