Python性能问题filter pandas dataframe vs filter list of dics vs numpy rec

ents = [] for idx in xrange(0,80) dic = {'n':f, 'p':props,'li':li,'col':col,'sty':sty,'nu':nu,'ge':ge,'rr':rr,'ssty':ssty} ents.append(dic) # DataFrame dfEnts = pd.DataFrame(ents) # np rec array entsTuples = [(ent[ 'n'],ent['p'], ent[ 'li'],ent['col'], ent[ 'sty'], ent['nu'],ent['ge'],ent[ 'rr'], ent['ssty']) for ent in ents] ents_dt = dtype([('n', 'O'), ('p', 'O'), ('li', 'i1'), ('col', 'O'), ('sty', 'O'), ('nu', 'i1'), ('ge', 'i1'), ('rr', 'i1'), ('ssty', '<i4')]) entsRec = np.array(entsTuples,ents_dt)

1条回答

网友

1楼 · 发布于 2024-09-28 22:21:53

当您处理小数据集时，这个列表可能有一点性能上的好处，因为在Python中，列表的理解和字典查找是非常优化的。但这通常是微不足道的区别。一旦你尝试使用更大的数据集，你会发现一个更大的差异，并开始感受到熊猫库提供的好处。在

ents = []
for i in xrange(0, 10000000):
    dic = {
        'n': i, 'p': i, 'li': i, 'col': i, 'sty': i,
        'nu': i, 'ge': i, 'rr': i, 'ssty': i
    } 
    ents.append(dic)
dfEnts = pd.DataFrame(ents)

%%timeit
a = dfEnts[(dfEnts["col"] == 44) & (dfEnts["sty"]== 44)]
10 loops, best of 3: 96.1 ms per loop

%%timeit
b = [ix for ix,ent in enumerate(ents) if (ent['col'] == 44) & (ent["sty"] == 44)]
1 loops, best of 3: 1.68 s per loop

此外，pandasDataFrame提供了比dict列表多得多的功能，因此我认为它们甚至没有可比性。在

相关问题更多 >

编程相关推荐

热门问题

热门文章