<p>如何对连字符的fasta格式字符串进行编码,以将所有连续的核苷酸和连字符以及<a href="http://en.wikipedia.org/wiki/Run-length_encoding" rel="nofollow">encode them as run length</a>分组。在</p>
<p>把我的序列看作“ATGC----CGCTA--G---”。字符串的序列是<a href="http://en.wikipedia.org/wiki/Nucleotide" rel="nofollow">Nucleotide</a>,后面是连字符序列。我尝试将所有连续的核苷酸分组为字母<code>M</code>,连续连字符为字母<code>D</code>,并以子序列的大小作为前缀。在</p>
<p>此编码的最终结果应该是<code>4M4D5M5D1M3D</code>。在</p>
<p>下面的图片进一步说明了这一点</p>
<pre><code>ATGC----CGCTA-----G---
| | | | | |
V V V V V V
4M 4D 5M 5D 1M 3D
</code></pre>
<p>当我使用<code>Counter</code>或<code>list.count()</code>时,我得到<code>"M":10 "D":12</code>:</p>
^{pr2}$