擅长:python、mysql、java
<p>我会做两件事:</p>
<ol>
<li><p>由于您只使用<code>'description'</code>列,请尝试将其导出为列表<code>df.description.tolist()</code>。使用此列表处理字符串,然后您可以<code>pd.concat</code>您的结果。我相信这可以消除<code>pandas</code>的开销。
<code>Numpy</code>数组被认为是更优化的,但是,我不太确定字符串操作是否真的是这样。但你也可以试试看。</p></li>
<li><p>并行化你的代码。<code>joblib</code>提供了一个非常简单的界面。(<a href="https://pythonhosted.org/joblib/parallel.html" rel="nofollow noreferrer">https://pythonhosted.org/joblib/parallel.html</a>)</p></li>
</ol>