擅长:python、mysql、java
<p>在某种程度上,因为您提到(在评论中)速度对于拥有4000万行的重要性,我建议您看看下面的内容。在</p>
<pre><code>df.groupby(['node','lang'])['lang'].count()
node lang
1 it 1
2 en 1
3 ar 2
es 1
5 es 1
uz 1
</code></pre>
<p>一般来说,使用更平坦的结构(python的zen)会更好,更具体地说,您希望pandas/numpy列是简单类型(int和float),而不是对象。在</p>
<p>考虑到像groupby这样的pandas方法,上面的结构应该比以列表形式存储更容易完成任务,而且几乎可以保证更快,可能更快。我假设您希望使用这种结构进行进一步的处理,但即使不使用,以这种方式将数据制成表格也会更快。在</p>