关于余弦相似性，如何选择损失函数和网络（我有两个方案）

class cos_Similarity(nn.Module): def __init__(self): super(cos_Similarity,self).__init__() cos=nn.CosineSimilarity(dim=2) embA=generator_A() embB=generator_B() def forward(self,a,b): output_a=embA(a) output_b=embB(b) return cos(output_a,output_b) loss_func=nn.CrossEntropyLoss() y=cos_Similarity(a,b) loss=loss_func(y,target) acc=np.int64(y>0)

def train_func(train_loss_list): train_data=load_data('train') trainloader = DataLoader(train_data, batch_size=BATCH_SIZE) cos_smi=nn.CosineSimilarity(dim=2) train_loss = 0 for step,(a,b,target) in enumerate(trainloader): try: optimizer.zero_grad() output_a = model_A(a) #generate embA output_b = model_B(b) #generate embB acc=cos_smi(output_a,output_b) loss = loss_fn(output_a,output_b, target.unsqueeze(dim=1)) train_loss += loss.item() loss.backward() optimizer.step() train_loss_list.append(loss) if step%10==0: print('train:',step,'step','loss:',loss,'acc',acc) except Exception as e: print('train:',step,'step') print(repr(e)) return train_loss_list,train_loss/len(trainloader)

2条回答

网友

1楼 · 编辑于 2024-10-01 19:34:38

您可以使用三重丢失功能进行训练。您的输入是一组嵌入（比如1000行）。假设每一个都以200维编码。还有相似性标签。例如，第1行可能与1000行中的20行相似，而dis与其余980行相似。然后，您可以通过每次进行1+ve和1-ve匹配，对第1行使用三重态丢失函数。你可以对火车上的所有1000行这样做。这样，嵌入现在可以更好地进行微调。这是训练阶段

现在，为了进行推断，您可以找出余弦相似性来确定哪些行彼此接近，哪些不接近（k最近，其中k=1）。我想这就是你的模型的目标

我们在这里假设嵌入是“可转移的”，因为它来自诸如BERT（文本）或imagenet（图像）之类的东西，这些嵌入可以通过在顶部添加一层进行微调

网友

2楼 · 编辑于 2024-10-01 19:34:38

作为对注释线程的响应

目标或管道似乎是：

接收两个嵌入向量（例如，A和B）
检查这两个向量是否“相似”（使用余弦相似性）
如果它们相似，则标签为1，否则为-1（我建议将其更改为0或1，而不是-1和1）

我能想到的是以下几点。如果我误解了什么，请纠正我。免责声明是，我几乎是根据我的直觉编写的，不知道任何细节，所以如果你尝试运行，它可能会充满错误。让我们仍然尝试获得高层次的理解

型号

import torch
import torch.nn as nn


class Model(nn.Module):
    def __init__(self, num_emb, emb_dim): # I'm assuming the embedding matrices are same sizes.
        self.embedding1 = nn.Embedding(num_embeddings=num_emb, embedding_dim=emb_dim)
        self.embedding2 = nn.Embedding(num_embeddings=num_emb, embedding_dim=emb_dim)
        self.cosine = nn.CosineSimilarity()
        self.sigmoid = nn.Sigmoid()

    def forward(self, a, b):
        output1 = self.embedding1(a)
        output2 = self.embedding2(b)
        similarity = self.cosine(output1, output2)
        output = self.sigmoid(similarity)

        return output

培训/评估

model = Model(num_emb, emb_dim)

if torch.cuda.is_available():
    model = model.to('cuda')

model.train()

criterion = loss_function()
optimizer = some_optimizer()

for epoch in range(num_epochs):
    epoch_loss = 0
    for batch in train_loader:
        optimizer.zero_grad()

        a, b, label = batch

        if torch.cuda.is_available():
            a = a.to('cuda')
            b = b.to('cuda')
            label = label.to('cuda')

        output = model(a, b)

        loss = criterion(output, label)
        loss.backward()
        optimizer.step()

        epoch_loss += loss.cpu().item()

        print("Epoch %d \t Loss %.6f" % epoch, epoch_loss)

我省略了一些细节（例如，超参数值、损失函数和优化器等）。这整个过程和你想要的类似吗

型号

培训/评估

相关问题更多 >

编程相关推荐

热门问题

热门文章