擅长:python、mysql、java
<p>如果您使用python中的DNA序列数据,我建议您使用<a href="http://biopython.org/DIST/docs/tutorial/Tutorial.html" rel="nofollow">Biopython</a>库。您可以使用<code>pip install biopython</code>安装它。在</p>
<p>以下是您如何达到预期效果:</p>
<pre><code>from Bio import SeqIO
import os
import numpy as np
pathToFile = os.path.join("C:\\","Users","Kevin","Desktop","test.fasta") #windows machine
allSeqs = []
for seq_record in SeqIO.parse(pathToFile, """fasta"""):
allSeqs.append(seq_record.seq)
seqMat = np.array(allSeqs)
</code></pre>
<p>但是在for循环中,每个<code>seq_record.seq</code>都是一个<a href="http://biopython.org/wiki/Seq" rel="nofollow">^{<cd3>}</a>对象,使您能够灵活地对它们执行操作。在</p>
^{pr2}$
<p>您可以随意分割<code>seqMat</code>数组。在</p>
<pre><code>In [6]: seqMat[0]
Out[6]: array(['A', 'T', 'C', 'G', 'C', 'G', 'C', 'T', 'A', 'N', 'A', 'N', 'A',
'G', 'C', 'T', 'A', 'N', 'A', 'N', 'A', 'G', 'C', 'T', 'A', 'G',
'A', 'N', 'C', 'A', 'C', 'G', 'A', 'T', 'A', 'G', 'A', 'G', 'A',
'G', 'A', 'G', 'A', 'C', 'T', 'A', 'T', 'A', 'G', 'C'],
dtype='|S1')
</code></pre>
<p>强烈建议你去看看教程!在</p>