回答此问题可获得 20 贡献值,回答如果被采纳可获得 50 分。
<p>我有10.txt文件的基因型数据-每个都来自不同的染色体。它们每行的列数都相同,而且列的顺序也都相同。每个文件以相同的第一行开始。在</p>
<p>我想做的是将所有10个文件按chr1,chr2,chr3…chr10的顺序附加到一个基因型文件中。但是,我希望只保留chr1的头行,这样它将保留头行,并在将它们全部连接在一起之前从后续染色体中删除所有的头。在</p>
<p>例如,如果我有:</p>
<p>文件1:</p>
<pre><code>chr, position, geno1, geno2
1, 100, A, C
1, 200, G, T
</code></pre>
<p>文件2:</p>
^{pr2}$
<p>我想以组合文件结尾:</p>
<pre><code>chr, position, geno1, geno2
1, 100, A, C
1, 200, G, T
2, 50, T, A
2, 150, C, G
</code></pre>
<p>考虑到每个文件的大小为400-600Mb,而生成的文件大约为6Gb,那么最好/最快的方法是什么?我对编写Python和linuxshell脚本比较满意,但是解释一下为什么代码很快以及它在做什么将是一个加分!谢谢!在</p>