Transformer代码实例中各张量的维度是多少

一下是一个Transformer代码实例:

def sample(self, batch_size, max_length=140, con_token_list= ['is_JNK3', 'is_GSK3', 'high_QED', 'good_SA']):"""Sample a batch of sequencesArgs:batch_size : Number of sequences to samplemax_length:  Maximum length of the sequencesOutputs:seqs: (batch_size, seq_length) The sampled sequences.log_probs : (batch_size) Log likelihood for each sequence.entropy: (batch_size) The entropies for the sequences. Notcurrently used."""# conditional tokencon_token_list = Variable(self.voc.encode(con_token_list))con_tokens = Variable(torch.zeros(batch_size, len(con_token_list)).long()) #形状为 (batch_size, len(con_token_list)),表示条件标记的张量。for ind, token in enumerate(con_token_list):con_tokens[:, ind] = tokenstart_token = Variable(torch.zeros(batch_size, 1).long())  #形状为 (batch_size, 1),表示序列开始标记的张量。start_token[:] = self.voc.vocab['GO']input_vector = start_token   # 在循环中更新的张量,它的形状与 sequences 相同。# print(batch_size)sequences = start_tokenlog_probs = Variable(torch.zeros(batch_size))# log_probs1 = Variable(torch.zeros(batch_size))finished = torch.zeros(batch_size).byte()finished = finished.to(self.device)for step in range(max_length):logits = sample_forward_model(self.decodertf, input_vector, con_tokens) #形状为 (batch_size, max_length, vocab_size)。logits_step = logits[:, step, :]  #是从 logits 中选择当前时间步的张量,形状为 (batch_size, vocab_size)。prob = F.softmax(logits_step, dim=1)log_prob = F.log_softmax(logits_step, dim=1)input_vector = torch.multinomial(prob, 1)# need to concat prior words as the sequences and input 记录下每一步采样sequences = torch.cat((sequences, input_vector), 1)  #形状为 (batch_size, seq_length),表示生成的序列。log_probs += self._nll_loss(log_prob, input_vector.view(-1))  #形状为 (batch_size),表示每个生成序列的对数似然。# log_probs1 += NLLLoss(log_prob, input_vector.view(-1))# print(log_probs1==-log_probs)EOS_sampled = (input_vector.view(-1) == self.voc.vocab['EOS']).datafinished = torch.ge(finished + EOS_sampled, 1)  #形状为 (batch_size),是一个二进制张量,表示每个序列是否已经结束。if torch.prod(finished) == 1:# print('End')break# because there are no hidden layer in transformer, so we need to append generated word in every step as the input_vectorinput_vector = sequencesreturn sequences[:, 1:].data, log_probs

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/184869.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LDF文件分析

文件配置 /* * Copyright (c) 2015 - 2016 , Freescale Semiconductor, Inc. * Copyright 2016-2017 NXP * All rights reserved. …

如何利用树莓派与Nginx结合内网穿透服务实现远程访问内部站点——“cpolar内网穿透”

文章目录 1. Nginx安装2. 安装cpolar3.配置域名访问Nginx4. 固定域名访问5. 配置静态站点 安装 Nginx(发音为“engine-x”)可以将您的树莓派变成一个强大的 Web 服务器,可以用于托管网站或 Web 应用程序。相比其他 Web 服务器,Ngi…

Electron+Ts+Vue+Vite桌面应用系列:TypeScript常用语法详解

文章目录 1️⃣ TypeScript常用讲解1.1 使用1.2 字符串1.3 数字1.3 布尔1.4 数组1.5 元组1.6 枚举1.7 any1.8 void1.9 object1.10 函数指定返回值的类型1.11 联合类型1.12 类型断言1.13 接口1.14 函数类型1.15 类类型1.16 泛型 2️⃣ 类2.1 类的基本写法2.2 类的继承2.3 类的修…

❤ 下载返回加密解密

❤功能集合 图片下载 方式一 window.open(URL, name, features, replace) // 新窗口的 URL、窗口名称、窗口特性window.open(row.certificateImageUrl,"_blank", "width500,height400") //打开一个新窗口并且指定长宽参数说明: URL&#xf…

数据结构 | 二叉树的概念及前中后序遍历

数据结构 | 二叉树的概念及前中后序遍历 文章目录 数据结构 | 二叉树的概念及前中后序遍历一、树概念及结构1.1 树的相关概念 二、树的表示2.2 树在实际中的运用(表示文件系统的目录树结构) 三、二叉树概念及结构3.1 二叉树的基本概念3.2 二叉树的结构&a…

文档理解的新时代:LayOutLM模型的全方位解读

一、引言 在现代文档处理和信息提取领域,机器学习模型的作用日益凸显。特别是在自然语言处理(NLP)技术快速发展的背景下,如何让机器更加精准地理解和处理复杂文档成为了一个挑战。文档不仅包含文本信息,还包括布局、图…

js查询详情接口控制执行时间的命令

在JavaScript中,可以使用console.time()和console.timeEnd()来控制执行时间的命令。 console.time()用于开始计时,可以指定一个标识符作为参数,用于标识计时器。 console.time(query); // 执行查询操作 console.timeEnd(query); 执行上述代…

熟练运用这些黑盒测试知识点,月薪翻倍不是难题

📢专注于分享软件测试干货内容,欢迎点赞 👍 收藏 ⭐留言 📝 如有错误敬请指正!📢交流讨论:欢迎加入我们一起学习!📢资源分享:耗时200小时精选的「软件测试」资…

NX二次开发UF_MTX2_copy 函数介绍

文章作者:里海 来源网站:https://blog.csdn.net/WangPaiFeiXingYuan UF_MTX2_copy Defined in: uf_mtx.h void UF_MTX2_copy(const double mtx_src [ 4 ] , double mtx_dst [ 4 ] ) overview 概述 Copies the 2x2 matrix elements from the source m…

快速排序算法的代码及算法思想

快速排序(Quick Sort)是一种常用的排序算法,他的时间复杂度为O(nlogn) 算法思想: 通过一趟排序将待排序的数据分割成独立的两部分,其中一部分的所有数据都比另一部分的所有数据小,然后再对这两部分数据分别进行快速排…

js修改浏览器地址栏里url的方法

1、更新url某一参数的值 function updateQueryStringParameter(uri, key, value) {if (!value) { return uri }var re new RegExp("([?&])" key ".*?(&|$)", "i");var separator uri.indexOf(?) ! -1 ? "&" : &q…

模糊C均值聚类(Fuzzy C-means clustering,FCM)的基本概念,详细流程以及广泛应用!

文章目录 1.基本概念2. FCM的详细流程3.FCM的应用 1.基本概念 模糊C均值聚类(Fuzzy C-means clustering,FCM)是一种软聚类方法,它允许数据点属于多个聚类中心,每个聚类中心都有一个权重。与传统的硬聚类方法&#xff…

Visual Studio 2022分析C#程序内存泄漏

背景 最近我们的项目出现了内存激增的情况,初次探讨,我们发现和机器人发生通信之后,内存会缓慢上升,直到系统崩溃。 例子 由于只是介绍一个简单的方案,所以就写一个比较简单的例子来演示了,代码如下&…

Python实现对Windows注册表的增删改查

首先我们需要安装winreg库 pip install winreg注册表常量 ”winreg“总有很多有用的方法,基本上就是操作注册表中的键值,我们挑几个重要的来说说。首先我们来了解下”winreg“中的各个常量: 1.HKEY_ 常量 winreg.HKEY_CLASSES_ROOT #存…

五要素超声波气象站-气象站小百科

随着科技的发展,人们对气象监测的需求也越来越高。为了满足这一需求,一款全新的五要素超声波气象站应运而生。这款气象站不仅具有高精度的测量能力,而且能够实时监测天气变化,为人们提供准确的气象数据。 一、实时监测&#xff0…

34、故事大全API接口,免费好用

1、前言 故事大全查询API接口,这个是RollToolsApi通用系列接口的其中一个,内部包含了3个小接口,可获取睡前故事,儿童故事,格林童话,安徒生童话,民间故事,益智故事,历史故…

python循环语句和函数

1.使用for循环打印9*9乘法表 for i in range(1, 10):for j in range(1, i1):print(i, "*", j, "", i*j, end"\t")print()结果&#xff1a; 2.使用while循环打印9*9乘法表 i 1 while i < 10:j 1while j < i1:print(i, "*", j…

SSD-Single Shot Detector

文章目录 SSD模型主要改进点模型说明训练Choosing scales and aspect ratios for default boxesMatching strategyTraining objectiveHard negative miningData augmentation实验结果基本网络参数PASCAL VOC2007模型消融实验PASCAL VOC2012COCO推理速度比较前面提到了两种经典的…

moment.js的使用

更多可参见官方文档&#xff1a;Moment.js 中文网 | 开发文档

Java常见的面试题(很基础那种)

这里介绍一下,一些比较基础的Java面试题,比较适合应届生、实习生这些朋友。因为对于刚出来工作的Java工程师,很多企业都偏向招一些基础比较好的苗子回来培养。所以啊,在校的朋友们,一定要在读书期间,多做项目,如果没有实际的项目,可以在github找一些案例来做参考,先模…