加速datafram中字符串的整数编码问题的回答

加速datafram中字符串的整数编码

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我有一个如下的数据帧，由字符串值组成。你知道吗 <pre><code> 0 1 2 0 o jj ovg 1 j jj jjy 2 y yk yku 3 v vf vfs 4 i iw iwd </code></pre> 我有一个函数，它用整数值对每列进行编码，并计算每列中唯一元素的数量。我使用了<code>cat.codes</code>和<code>nunique</code>函数。请参见下面的计时结果和代码片段。你知道吗 很明显，这些行动需要很多时间。我怎样才能加快速度？你知道吗 <pre><code>Line # Hits Time Per Hit % Time Line Contents ===================================================================================================================== 25 1 7529434.0 7529434.0 79.9 df = df.apply(lambda x: x.astype('category').cat.codes) 26 27 # calculate the number of unique keys for each row 28 1 1825214.0 1825214.0 19.4 len_arr = df.nunique(axis=0).values </code></pre> 编辑答案的计时结果 <pre><code>df.apply(lambda x: pd.factorize(x)[0]) #100 loops, best of 3: 6.24 ms per loop %timeit df.apply(lambda x: pd.factorize(x)[0]) #100 loops, best of 3: 4.93 ms per loop %timeit df1.nunique(axis=0).values #100 loops, best of 3: 2.34 ms per loop %timeit df1.apply(lambda x: len(pd.factorize(x)[1])) #100 loops, best of 3: 2.64 ms per loop </code></pre> 编辑2 更多有趣的计时结果： <pre><code># results with 100 rows %timeit original() #100 loops, best of 3: 7 ms per loop %timeit WeNYoBen() #100 loops, best of 3: 2.4 ms per loop %timeit jezrael() #100 loops, best of 3: 4.03 ms per loop %timeit piRSquared() #100 loops, best of 3: 2.29 ms per loop # results with 10000 rows %timeit original() #100 loops, best of 3: 16.6 ms per loop %timeit WeNYoBen() #10 loops, best of 3: 23 ms per loop %timeit jezrael() #100 loops, best of 3: 6.14 ms per loop %timeit piRSquared() #100 loops, best of 3: 19.1 ms per loop </code></pre>

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

加速datafram中字符串的整数编码

1 个回答

相关Python问题