了解如何在我的cas中使用Fasttext嵌入单词

2024-10-01 04:50:09 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在寻找一些有关Fasttext和NLP的指导,以帮助理解模型如何继续计算一个句子的向量。你知道吗

上下文:

我正在使用fasttext方法get_sentence_vector()来计算我将调用P1的查询语句的向量,以及一组语句(P2,P3,P4,P5,…,Pn)。句子可以有一个或多个单词。然后,我计算句子P1的向量与其他句子向量之间的距离,最终得到最接近P1的句子列表。请注意,我只在P1上做预处理(去除数字和标点符号+标记化和用SpaCy进行柠檬化)。目标是得到最接近意义的句子


问题是我不了解不同情况下的结果:

案例1:P1=“生物肥料”

  • 载体“生物肥料”和“化肥”之间的距离:0.48
  • 载体“生物肥料”和“生物肥料”之间的距离:0.49

在这里,我不明白用“生物肥料”的fasttext计算的向量如何更接近“化肥”而不是“生物肥料”。矢量计算过程中是否计算破折号?生物肥料在逻辑上应该更接近,你不觉得吗?你知道吗

案例2:P1=“笔记本电脑”

  • “笔记本电脑”和“笔记本电脑电池充电器”之间的距离:0.16
  • “笔记本电脑”和“平板电脑”之间的距离:0.27

这是不正确的,因为“平板电脑”比“笔记本电脑电池充电器”更接近“笔记本电脑”。是因为后者包含了“膝上型电脑”一词,所以距离较低吗?你知道吗

案例3:P1=“刀”:

“刀”和“餐具,除了叉子、刀和勺子”之间的距离很小,这两句话被认为很接近。不应该是这样,因为它们的含义是对立的。所以我假设Fasttext在向量计算过程中没有吸收否定词,比如“Except”或“not”?你知道吗


当计算向量之间的距离时,Fasttext是如何得到这些结果的?你知道吗

我还想听听其他关于计算两句话之间语义接近度的建议。你知道吗


Tags: 距离电池过程语句向量案例句子笔记本电脑