使用pandas&BERT将余弦相似性公式从一个数据帧循环到另一个数据帧

df = pd.DataFrame({'Element Detail':['Too many competitors in market', 'Highly skilled employees']}) df1 = pd.DataFrame({'Element Details':['Our workers have a lot of talent', 'this too is a sentence', 'this is very different', 'another sentence is this', 'not much of anything'] })

import pandas as pd import numpy as np model_name = 'bert-base-nli-mean-tokens' from sentence_transformers import SentenceTransformer model = SentenceTransformer(model_name) sentence_vecs = model.encode(df['Element Detail']) sentence_vecs1 = model.encode(df1['Element Details']) from sklearn.metrics.pairwise import cosine_similarity new = cosine_similarity( [sentence_vecs[0]], sentence_vecs1[0:] ) d = pd.DataFrame(new) T =pd.DataFrame.transpose(d) df_new = T.insert(0, 'New_ID', range(1, 1 + len(T))) Tnew = (T.add_prefix('X')) Final = (Tnew[Tnew.X0 == Tnew.X0.max()])

1条回答

网友

1楼 · 发布于 2024-05-03 07:33:51

余弦相似性可以在两个列表上很好地执行，因此您可以将整个嵌入列表作为参数传递，然后提取最大相似性

import pandas as pd
import numpy as np

model_name = 'bert-base-nli-mean-tokens'
from sentence_transformers import SentenceTransformer
model = SentenceTransformer(model_name)
sentence_vecs = model.encode(df1['Element Detail'])
sentence_vecs1 = model.encode(df2['Element Details'])

from sklearn.metrics.pairwise import cosine_similarity

new = cosine_similarity(
    sentence_vecs,
    sentence_vecs1
)
max_similarities = np.amax(new, axis=1)
d = pd.DataFrame(new)
T =pd.DataFrame.transpose(d)
df_new = T.insert(0, 'New_ID', range(1, 1 + len(T)))
Tnew = (T.add_prefix('X'))
Final = (Tnew[Tnew.X0 == Tnew.X0.max()])
Final

输出：

    XNew_ID     X0          X1
0   1           0.615005    0.868932

相关问题更多 >

编程相关推荐

热门问题

热门文章