在数据帧中查找常用词

{'adalah', 'akan', 'akhir', 'algoritme', 'alur', 'antar', 'antisense', 'asam', 'atas', 'atau', 'bahwa', 'bakteriofag', 'baru', 'basa', 'beranggota', 'berdasarkan', 'berikatan', 'berupa', 'pada',...}

bigram PMI 0 (itu, adalah) 11.487338 1 (DNA, pada) 6.386371 2 (pada, oleh) 6.386371 3 (pada, basa) 1.105795 4 (yang, satu) 1.105795 5 (gula, yang) 1.044394 6 (yang, tidak) 1.044394 7 (pada, DNA) 0.986496 8 (unting, dalam) 0.931790 9 (DNA, tidak) 0.925095 10 (DNA, menjadi) 0.925095 11 (dan, sebagai) 0.905196 12 (pada, unting) 0.834493

2条回答

网友

1楼 · 编辑于 2024-05-19 12:03:21

具有sets和isdisjoint的第一个溶液，并通过~反向掩模通过^{}过滤：

df1 = df[~df.bigram.map(s.isdisjoint)]

或者，您可以使用isin创建助手DataFrame：

df1 = df[pd.DataFrame(df['bigram'].tolist(), index=df.index).isin(s).any(axis=1)]

print (df1)
            bigram        PMI
0    (itu, adalah)  11.487338
1      (DNA, pada)   6.386371
2     (pada, oleh)   6.386371
3     (pada, basa)   1.105795
7      (pada, DNA)   0.986496
12  (pada, unting)   0.834493

设置：

s = {'adalah',
 'akan',
 'akhir',
 'algoritme',
 'alur',
 'antar',
 'antisense',
 'asam',
 'atas',
 'atau',
 'bahwa',
 'bakteriofag',
 'baru',
 'basa',
 'beranggota',
 'berdasarkan',
 'berikatan',
 'berupa',
 'pada'}

性能：

df = pd.concat([df] * 10000, ignore_index=True)

In [41]: %timeit df[~df.bigram.map(s.isdisjoint)] 
21 ms ± 359 µs per loop (mean ± std. dev. of 7 runs, 10 loops each) 
In [42]: %timeit df[pd.DataFrame(df['bigram'].tolist(), index=df.index).isin(s).any(axis=1)] 
41.6 ms ± 5.05 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

#yatu solutions
In [43]: %timeit df[df.bigram.map(s.intersection).ne(set())] 
73.4 ms ± 4.53 ms per loop (mean ± std. dev. of 7 runs, 10 loops each) 
In [44]: %timeit df[df.bigram.map(s.intersection).str.len().gt(0)] 
127 ms ± 6.99 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

网友

2楼 · 编辑于 2024-05-19 12:03:21

这里有一种使用sets的方法（比jezrael的set.isdisjoint方法慢一些）：

df[df.bigram.map(s.intersection).ne(set())]

         bigram        PMI
0    (itu, adalah)  11.487338
1      (DNA, pada)   6.386371
2     (pada, oleh)   6.386371
3     (pada, basa)   1.105795
7      (pada, DNA)   0.986496
12  (pada, unting)   0.834493

其中：

s = {'adalah',
 'akan',
 'akhir',
 'algoritme',
 'alur',
 'antar',
 'antisense',
 'asam',
 'atas',
 'atau',
 'bahwa',
 'bakteriofag',
 'baru',
 'basa',
 'beranggota',
 'berdasarkan',
 'berikatan',
 'berupa',
 'pada'}

相关问题更多 >

编程相关推荐

热门问题

热门文章