【古诗生成AI实战】之五——加载模型进行古诗生成

  回顾上一篇博客,我们已经成功地训练了我们的模型,并将其保存下来。这是一个重要的里程碑,因为训练好的模型是我们进行文本生成的基础。

  现在,接下来的步骤是加载这个训练好的模型,然后使用它来生成古诗。

  本章的内容属于文本生成阶段。在这一阶段,我将详细介绍古诗生成的代码实现。这部分是项目中非常激动人心的一环,因为我们将看到我们的模型如何利用先前学习的知识来创造出新的古诗文本。让我们一起深入探索古诗生成的过程,并理解背后的技术细节。

在这里插入图片描述

[1] 开始生成

  生成的代码仍然和模型训练很相像,只是在文本生成时需要额外写些代码。整体代码如下:

def create_trainer(wrapper):# 分词器, 模型model = wrapper.modelargs = TrainingArguments('./checkpoints',  # 模型保存的输出目录per_device_train_batch_size=1,per_device_eval_batch_size=1,)trainer = Trainer(model,args)return trainerdef softmax( f ):# 坏的实现: 数值问题return np.exp(f) / np.sum(np.exp(f))def main():# ### @通用配置# ##with open('config.yaml', 'r', encoding='utf-8') as f:conf = yaml.load(f.read(), Loader=yaml.FullLoader)conf_pre = conf['pre']conf_sys = conf['sys']# 系统设置初始化System(conf_sys).init_system()# 初始化任务加载器Task = TASKS[conf_pre['task_name']]()data = Task.get_train_examples(conf_pre['dataset_url'])# 初始化数据预处理器Processor = PROCESSORS[conf_pre['task_name']](data, conf_pre['max_seq_len'], conf_pre['vocab_path'])tokenizer = lambda text: Processor.tokenizer(text, add_end=False)vocab = Processor.vocab# 初始化模型包装配置wrapper_config = WrapperConfig(tokenizer=tokenizer,max_seq_len=conf_pre['max_seq_len'],vocab_num=len(Processor.vocab),word2vec_path=conf_pre['word2vec_path'])x = import_module(f'main.model.{conf_pre["model_name"]}')wrapper = NNModelWrapper(wrapper_config, x.Model)trainer = create_trainer(wrapper)wrapper.model.load_state_dict(torch.load(conf_pre['model_save_dir'] + conf_pre['task_name'] + '/' + conf_pre['model_name'] + '/' + 'pytorch_model.bin', map_location=torch.device('cpu')))poem = '天'l = len(poem)for i in range(l, 32):test_data = Task.get_single_examples(poem)test_dataset = wrapper.generate_dataset(test_data, labeled=False)output = trainer.predict(test_dataset=test_dataset)[0][0]# 逐字生成pred = output[i]pred = softmax(pred)pred /= np.sum(pred)sample = np.random.choice(np.arange(len(pred)), p=pred)# sample = np.argmax(pred)if sample > len(vocab):new_word = ' 'else:# vocab通过键查找keynew_word = vocab[sample]poem += new_wordprint(poem)

  在这部分内容中,我们将探讨如何使用预训练的模型来生成文本,例如古诗。整个过程包括以下步骤:

  * 从config.yaml文件中加载配置。
  * 初始化系统设置和任务加载器task
  * 加载数据并初始化数据预处理器processor
  * 创建模型包装配置WrapperConfig
  * 动态加载模型类并创建NNModelWrapper实例。
  * 创建训练器trainer,用于预测。
  * 加载预训练的模型权重。
  * 生成文本:从初始文本(例如“天”)开始,逐字生成新的文本,直到达到指定长度(如32个字符)。

  在文本生成部分,关键步骤包括:
  * 使用模型预测下一个字符的概率分布。
  * 应用softmax函数得到标准化的概率分布。
  * 从概率分布中随机抽取下一个字符(或选择概率最高的字符)。
  * 将新字符添加到现有文本中,并重复上述过程。

[2] 生成模式

  在古诗生成的过程中,我们可以采用几种不同的生成模式:

  1. 补词生成:输入古诗的前几个字,然后让模型补齐剩余部分。
  2. 无词生成:不输入任何前缀,直接让模型生成完整的古诗。
  3. 藏头诗:输入四个字ABCD,手动在第1、9、17、25个位置赋值A、B、C、D,其余部分由模型生成。

[3] 展望

在这里插入图片描述

  在评价生成的古诗质量时,我们需要考虑以下几个关键因素:

  · 语境连贯(Context Coherence):生成的文本应逻辑上与上下文相符,并贯穿始终保持一致性。
  · 主题相关(Topic Relevance):内容应与预定的主题或主旨相关。
  · 新颖性(Novelty):文本应引入新颖、创造性或创新元素。
  · 风格化(Stylization):文本应展示特定的风格或审美质量。
  · 情感化(Sentimentalization):文本应有效且恰当地表达情感。

  高质量的文本生成,尤其是在诗歌这样的创意领域,不仅仅是串联词语那么简单。它必须在语境连贯、主题相关、创新性、风格和情感深度等多个层面上产生共鸣。

  本实战项目只提供了基础的古诗生成功能,在以上这些注意点上并没有过多探究。如果想更进一步研究和提升生成文本的质量,可以参考相关的学术论文进行深入研究。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/172626.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2023年网络安全比赛--综合渗透测试②(超详细)

一、竞赛时间 180分钟 共计3小时 二、竞赛阶段 竞赛阶段 任务阶段 竞赛任务 竞赛时间 分值 1.通过 PC 中的渗透测试平台 Kali 对服务器场景进行渗透测试,将扫描开放的所有端口当作flag提交(例:21,22,23); 2.通过 PC 中的渗透测试平台 Kali 对服务器场景进行渗透测试,将初…

人工智能-优化算法和深度学习

优化和深度学习 对于深度学习问题,我们通常会先定义损失函数。一旦我们有了损失函数,我们就可以使用优化算法来尝试最小化损失。在优化中,损失函数通常被称为优化问题的目标函数。按照传统惯例,大多数优化算法都关注的是最小化。…

计算机图形学-变换基础

坐标系转换历程模型坐标系 -> 世界坐标系 -> 摄像机坐标系 -> 视口(屏幕)坐标系 变换 仿射变换和线性变换线性:旋转 缩放 镜像 切变放射: 平移 平移 2D变换矩阵 3D变换矩阵 旋转 2D旋转矩阵 //2D 旋转private (float,…

【docker系列】docker命令篇

💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…

中科亿海微除法器(DIVIDE)

技术背景 技术概述 FPGA实现除法运算是一个比较复杂的过程,因为硬件逻辑与软件程序的区别。如果其中一个操作数为常数,可以通过简单的移位与求和操作代替,但用硬件逻辑完成两变量间除法运算会占用较多的资源,电路结构复杂&#xf…

数据结构 / 顺序表的遍历

1. 顺序表的遍历函数代码 /**判断顺序表是否为空* */int is_list_empty(sqlist *list) {return list->len 0 ? 1 : 0; }/**顺序表遍历** */void output(sqlist *list) {if(NULLlist||1is_list_empty(list)){printf("list is NULL!\n");return;}for(int i0; i&…

【虚拟机Ubuntu 18.04配置网络】

虚拟机Ubuntu 18.04配置网络 1.配置网络连接方式,查看自己网关 2.修改主机名 3.修改系统配置1.配置网络连接方式,查看自己网关 选择虚拟机镜像设置网络连接模式,可以选择桥接或者NAT连接(我这里选择是NAT连接) 确定自己网关,可以在虚拟机 -》 编辑 -》虚拟网络编…

springboot(ssm高校大学生评奖评优系统 奖学金管理系统Java(codeLW)

springboot(ssm高校大学生评奖评优系统 奖学金管理系统Java(code&LW) 开发语言:Java 框架:ssm/springboot vue JDK版本:JDK1.8(或11) 服务器:tomcat 数据库:mysql 5.7(或8.…

TypeScript和JavaScript有什么不同

TypeScript是JavaScript的一个超集,它添加了静态类型检查和其他一些高级特性。下面是TypeScript和JavaScript之间的一些主要区别: 类型系统:TypeScript引入了静态类型检查,可以在开发过程中捕获潜在的类型错误,并提供更…

Kubernetes之kubeadm集群部署篇—k8s集群部署

文章目录 1、启动集群1.1 新增 kubernetes yum源:(所有节点)1.2 安装kubelet kubeadm kubectl (master节点)1.3 启动k8s-master节点 (master节点) 二、部署 flannel (master节点)2.1 下载flanne…

SpringBoot通过URL请求图片方法

通过URL请求图片方法 来源 如果你想通过controller动态返回图片,你可以参考以下示例代码:java // 使用PathVariable注解,获取请求路径中的参数 GetMapping(value "/image/{name}", produces MediaType.IMAGE_JPEG_VALUE) ResponseBody pub…

Android 10.0 mtp模式下连接pc后显示的文件夹禁止删除copy重命名功能实现

1.前言 在10.0的系统开发中,usb连接pc端的时候有好几种模式,在做otg连接pc端的时候,改成mtp模式的时候,在pc端可以看到产品设备 的显示的文件夹的内容,对于产品设备里面的文件在pc端禁止做删除重命名拷贝等操作功能的实现 2.mtp模式下连接pc后显示的文件夹禁止删除copy重命…

【计算机视觉】【图像处理综合应用】路沿检测

实验内容:针对给定的视频,利用图像处理基本方法实现道路路沿的检测; 提示:可利用Hough变换进行线检测,融合路沿的结构信息实现路沿边界定位(图中红色的点位置)。 处理视频文件 处理视频文件的主…

springboot函数式web

1.通常是路由(请求路径)业务 2.函数式web:路由和业务分离 一个configure类 配置bean 路由等 实现业务逻辑 这样实现了业务和路由的分离

codeforces 1851F

题目链接 题目大意&#xff1a;给你一个长度为n的数组a, 和一个整数k(2<n<2e5, k<30, a[i]<pow(2,k))。 任选一个x&#xff0c;求(a[i] ^ x) & (a[j] ^ x) 的最大值(1<i,j<n, i!j, x<pow(2,k))。 由于中间有个&&#xff0c;所以我们要求两个数最高…

/dev/root

文章目录 后背发凉软链接搞的鬼破案 后背发凉 使用 mount 命令查看设备挂载情况 /# mount /dev/root on / type ext4 (rw,noatime) proc on /proc type proc (rw,nosuid,nodev,noexec,noatime) sysfs on /sys type sysfs (rw,nosuid,nodev,noexec,noatime) cgroup2 on /sys/f…

Exclude,Extract

在TypeScript中&#xff0c;Exclude<T, U>和Extract<T, U>都是条件类型&#xff0c;用于根据类型U排除或提取类型T中的某些部分。 其中&#xff0c;Exclude<T, U>返回一个新类型&#xff0c;该类型是T中不属于U的部分&#xff1b;而Extract<T, U>返回一…

【Rust日报】2023-11-25 CXX-Qt 0.6 发布

CXX-Qt 0.6 发布 CXX-Qt 是一组 Rust 包&#xff0c;用于创建与 Qt 的双向 Rust ⇄ C 绑定。它可用于使用 CMake 将 Rust 集成到 C 应用程序中&#xff0c;或使用 Cargo 构建 Rust 应用程序。 CXX-Qt 提供了用于在 Rust 中实现 QObject 子类的工具&#xff0c;可在 C、QML 和 J…

Spring MVC程序开发

所谓的Spring MVC程序开发&#xff0c;其实也是一个Spring Boot项目。 MVC是Model View Controller的缩写&#xff0c;它是软件工程中的一种软件架构模式&#xff0c;它把软件系统分为模型&#xff0c;视图&#xff0c;控制器三个部分。 项目使用什么技术实现的&#xff1f;&a…

【nowcoder】BM3 链表中的节点每k个一组翻转

题目&#xff1a; 题目分析&#xff1a; 题目解析转载&#xff1a; 代码实现&#xff1a; package BMP3;import java.util.List;class ListNode {int val;ListNode next null;public ListNode(int val) {this.val val;} } public class BM3 {/*** 代码中的类名、方法名、参…