擅长:python、mysql、java
<p>这个awk版本只是为了展示O(n)的思想;如果它工作得足够快,就用python重写它。你知道吗</p>
<pre><code>awk -F"\t" 'NR==FNR { a[$3]=1; next; };
$2 && !a[$2] {print} ' new_emails.tsv old_emails.tsv > new.tsv
</code></pre>
<p>说明:</p>
<ul>
<li>第1行保存新邮件的电子邮件em数组<code>a</code></li>
<li>第2行如果旧电子邮件的(非空)电子邮件不在<code>a</code>中,写下它的记录</li>
</ul>
<p>(如果可能,比较所用的时间,并向我们展示…)</p>