擅长:python、mysql、java
<p>[CLS]标记以某种方式表示输入序列,但其确切程度很难说。语言当然是句子的一个重要特征,可能不仅仅是意义。伯特模型是一种预训练模型,它试图对意义、结构和语言等特征进行建模。如果你想有一个模型,它可以帮助你识别两个不同语言的句子是否意味着同一件事,我可以想出两种不同的方法:</p>
<ol>
<li><p>方法:你可以在这个任务上训练分类器(SVM,逻辑回归,甚至一些神经网络,比如CNN)<code>Inputs: two [CLS]-Token, Output: Same meaning, or not same meaning.</code>
作为训练数据,您可以选择不同语言的[CLS]-标记句对,这些句子的含义相同或不同。为了得到有意义的结果,你需要很多这样的句子对。幸运的是,你可以通过google translate生成它们,或者使用类似于圣经的平行文本(存在于许多语言中),并从中提取句子对</p></li>
<li><p>方法:精确调整该任务的bert模型:
与前面的方法一样,您需要大量的培训数据。
伯特模型的样本输入如下所示:
<code>A cat jumped from the trees and startled the tourists [SEP] חתול קפץ מהעץ והבהיל את התיירים</code></p>
<p>要对这些句子是否具有相同的含义进行分类,您需要在[CLS]-标记的顶部添加一个分类层,并在该任务上微调整个模型</p></li>
</ol>
<p>注意:我从来没有使用过多语言的伯特模型,这些方法就是我想要完成上述任务的方法。如果您尝试这些方法,我很想知道它们的性能如何😊. </p>