gpt是如何进行训练的？

原理

gpt就是一个类似于成语接龙的游戏，根据之前的n个字符，预测下一个字符，那么gpt的输入和输出是如何构造的呢？比如给一个句子如下：
sentence：如何理解gpt的原理。
构造gpt输入输入：
input：如何理解gpt的原
output：何理解gpt的原理
是的你没有看错，输入输出就是一个字符的错位。
那么输入时如何经过self-mask-attention来得到输出的呢？

    def forward(self, x):B, T, C = x.size() # batch size, sequence length, embedding dimensionality (n_embd)# calculate query, key, values for all heads in batch and move head forward to be the batch dimxx = self.c_attn(x)q, k, v  = xx.split(self.n_embd, dim=2)k = k.view(B, T, self.n_head, C // self.n_head).transpose(1, 2) # (B, nh, T, hs)q = q.view(B, T, self.n_head, C // self.n_head).transpose(1, 2) # (B, nh, T, hs)v = v.view(B, T, self.n_head, C // self.n_head).transpose(1, 2) # (B, nh, T, hs)# causal self-attention; Self-attend: (B, nh, T, hs) x (B, nh, hs, T) -> (B, nh, T, T)if self.flash:# efficient attention using Flash Attention CUDA kernelsy = torch.nn.functional.scaled_dot_product_attention(q, k, v, attn_mask=None, dropout_p=self.dropout if self.training else 0, is_causal=True)else:# manual implementation of attentionkt = k.transpose(-2, -1)att = (q @ kt) * (1.0 / math.sqrt(k.size(-1)))bais = self.biasbais = bais[:,:,:T,:T]att = att.masked_fill(bais == 0, float('-inf'))att = F.softmax(att, dim=-1)att = self.attn_dropout(att)y = att @ v # (B, nh, T, T) x (B, nh, T, hs) -> (B, nh, T, hs)y = y.transpose(1, 2).contiguous().view(B, T, C) # re-assemble all head outputs side by side# output projectiony = self.resid_dropout(self.c_proj(y))return y

input经过矩阵计算得到权重att后，经过masked_fill掩码处理，得到了掩码的att权重，然后经过softmax归一化处理，最后的v乘积得到了每个output字符用前面input字符权重加权的表示，最后经过矩阵变换成voc_size大小的输出，就是我们要求的output输出，最后把我们计算得到output和target进行交叉熵损失函数计算，得到最终的loss，从而进行梯度下降优化整个模型。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/172721.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！