大索引数据集中Pandas.loc超慢

import pandas as pd import numpy as np import time columnList = ['groupID','timeStamp'] + list('ABCDEFGHIJKLMNOPQRSTUVWXYZ') columnTypeDict = {'groupID':'int64','timeStamp':'int64'} startID = 1234567 df = pd.DataFrame(columns=columnList) df = df.astype(columnTypeDict) fID = list(range(startID,startID+300000)) df['groupID'] = fID ts = [1000000000]*150000 + [10000000001]*150000 df['timeStamp'] = ts indx = [str(i) + str(j) for i, j in zip(fID, ts)] df['Index'] = indx df['Index'] = df['Index'].astype('uint64') df = df.set_index('Index') startTime = time.time() for groupID in range(startID+49000,startID+50000) : timeStamp = 1000000003 # Obtain/generate an index ind =int(str(groupID) + str(timeStamp)) #print(ind) df.loc[ind,'A'] = 1 print(df) print(time.time()-startTime,"secs")

1条回答

网友

1楼 · 发布于 2024-09-28 01:32:39

我认为访问数据帧是一个相对昂贵的操作。您可以暂时保存这些值，并使用它们创建将与原始数据框合并的数据框，如下所示：

startTime = time.time()

temporary_idx = []
temporary_values = []

for groupID in range(startID+49000,startID+50000) :

    timeStamp = 1000000003

    # Obtain/generate an index
    ind = int(str(groupID) + str(timeStamp))
    temporary_idx.append(ind)
    temporary_values.append(1)

# create a dataframe with new values and apply a join with the original dataframe
df = df.drop(columns=["A"])\
    .merge(
        pd.DataFrame({"A": temporary_values}, index=temporary_idx).rename_axis("Index", axis="index"),
        how="outer", right_index=True, left_index=True
    )
print(df)
print(time.time()-startTime,"secs")

当我进行基准测试时，这需要less than 2 seconds来执行

我不知道您真正的用例是什么，但这是针对插入列A的情况，正如您在示例中所述。如果您的用例比这更复杂，那么可能有更好的解决方案

相关问题更多 >

编程相关推荐

热门问题

热门文章