擅长:python、mysql、java
<p>目前还不能完全理解多语言BERT的功能以及它的工作原理。最近有两篇论文(第一篇{a1},第二篇{a2})对此进行了一些探讨</p>
<p>从论文中可以看出,向量似乎倾向于按照语言(甚至语族)进行聚类,因此对语言进行分类非常容易。这是显示为<a href="https://arxiv.org/pdf/1911.03310.pdf" rel="nofollow noreferrer">in the paper</a>的集群:</p>
<p><a href="https://i.stack.imgur.com/gHGJy.png" rel="nofollow noreferrer"><img src="https://i.stack.imgur.com/gHGJy.png" alt="enter image description here"/></a></p>
<p>正因为如此,你可以从表达中减去语言的平均值,最终得到一个某种程度上的跨语言向量,这两篇论文都表明可以用于跨语言句子检索</p>
<p>此外,似乎一千个平行句子(例如,在两种语言中)足以学习两种语言之间的投影。请注意,它们没有使用<code>[CLS]</code>向量,但它们表示将单个子词的向量合并在一起</p>