我有一个名为report1
;大小为14列X 800万行的数据帧。我想做的是从第3列到第8列获取每行的唯一值,并将每行的结果填充到名为df
的新数据帧中。在
report1
(源数据)如下所示:
票号Col0 Col1 Col2 Col3 Col4 Col5 Col6 Col7 Col8
100 21 30 32 3 4 6 1 5 0
101 4 9 25 3 4 6 1 5 4
102 45 33 11 3 4 6 1 5 3
8000000 12 5 28 3 4 6 1 5 11
df
(新数据帧)应如下所示:
票号Col0 Col1 Col2 Col3 Col4 Col5 Col6 Col7 Col8
100 21 30 32 3 4 6 1 5 0
101 4 9 25 3 4 6 1 5南
102 45 33 11 3 4 6 1 5南
8000000 12 5 28 3 4 6 1 5 11
到目前为止,我已经能够从下面的简单脚本中得到我想要的东西,但是运行它需要太长时间,即使我尝试过让它在pythonanywhere平台下运行。在
有人知道如何在最短的时间内完成这项工作吗?在
脚本如下:
result = []
for i in range(0,7999999):
g = pd.unique(report1.iloc[i,7:13].values.ravel())
arr_list = g.tolist()
result.append(arr_list)
df = pd.DataFrame(result)
df
您需要
numpy
:计时:
^{pr2}$计时代码:
相关问题 更多 >
编程相关推荐