以Llama-2为例,在生成模型中使用自定义LogitsProcessor

以Llama-2为例,在生成模型中使用自定义LogitsProcessor

  • 1. 前言
  • 2. 场景介绍
  • 3. 解决方法
  • 4. 结语

1. 前言

在上一篇文章 以Llama-2为例,在生成模型中使用自定义StoppingCriteria中,介绍了怎样在生成的过程中,使用stopping criteria来控制生成过程的结束,本文将继续这一话题,结合具体的场景,介绍如何实现自定义的logits processor,并以此来控制生成的过程。

2. 场景介绍

场景延续上篇介绍stopping criteria的文章,假如我们希望使用Llama-2模型,来生成一篇新闻的概要,希望它能够生成一句简短的话,来描述这篇新闻中主要发生了什么。

在上一篇文章中,我们成功的使用stopping criteria解决了模型废话太多的问题,然而,在某些情况下,模型输出的结果并不是我们想要的,它没有用一句话概括,反而是一条一条列举了其中的主要信息,类似:

1. ......
2. ......
3. ......

针对这种情况,我们可以强制要求生成的第一个token,不可以是数字,这样的话,就只能从字母中选择合适的单词生成,也就达到我们的目的了。为了实现这一策略,就需要用到logits processor。

3. 解决方法

logits processor是在生成的过程中,每一个step的score计算完成之后,对score进行进一步的加工,改变模型输出的概率分布,从而影响后续生成的结果。

transformers模块中提供了若干内置的processor可以直接调用,具体的整理和简介可以参考之前的文章以beam search为例,详解transformers中generate方法(上)。

现在我们需要设计这样一个processor,判断如果是第一个生成的第一个token,则禁止它生成数字,也就是把所有数字对应的得分强制设置为负无穷。

首先,引入需要用到的类,与stopping criteria类似的,也是有要给基础类,和一个容器类:

from transformers.generation.logits_process import LogitsProcessor, LogitsProcessorList

然后继承基础类,实现我们所需的processor:

class SuppressSpecificBOSTokenLogitsProcessor(LogitsProcessor):"""防止生成的第一个token是某些特定的token---------------ver: 2023-08-02by: changhongyu"""def __init__(self, bad_bos_token_id_list: List[int] = None):""":param bad_bos_token_id_list: 不可以作为第一个token的token的id列表"""self.bad_bos_token_id_list = bad_bos_token_id_listdef __call__(self, input_ids: torch.LongTensor, scores: torch.FloatTensor) -> torch.FloatTensor:new_token_len = input_ids.shape[-1] - current_token_lenif new_token_len == 0:for id_ in self.bad_bos_token_id_list:scores[:, id_] = -float('inf')return scores

logits processor的使用方法与stopping criteria是一样的,我们设计好自己的processor类之后,实例化一个容器,再将实例化的processor放到这个容器中就好了:

NUMBER_ID_LIST = []
for i in range(10):NUMBER_ID_LIST.append(tokenizer.convert_tokens_to_ids(str(i)))
logits_processor = LogitsProcessorList()
logits_processor.append(SuppressSpecificBOSTokenLogitsProcessor(NUMBER_ID_LIST))

如果有多个processor的话,可能需要注意一下放入容器的顺序。

最后在生成的时候,将它作为参数传给generate方法就好了。

例如,原本生成的代码是:

outputs = model.generate(**inputs)

使用processor的话,可以写作:

outputs = model.generate(logits_processor=logits_processor, **inputs)

注意在实现的时候有一个小细节,由于是对话模型,输入的除了当前的query之外,还包括历史的对话记录,二者拼接在一起才是完整的prompt(prompt构建参考这一篇),所以我们并不能仅仅根据当前输入input_ids的长度,来判断当前step是不是这一轮生成的第一个token,这就是为什么上面的代码中有一个为声明定义的变量current_token_len

对于这个current_token_len,只需要在model.generate执行之前,对他global一下就可以了。

例如像这个样子,每次生成之前先计算一下截至生成之前的长度:

global current_token_len
current_token_len = inputs['input_ids'].shape[1]outputs = model.generate(logits_processor=logits_processor, **inputs)

4. 结语

作为用户控制生成过程的主要手段,如何巧妙地利用好logits processor对使用生成式模型来说非常重要。在实际情况中,需要针对场景,发现其中地规律,然后又针对性地去设计一个processor。它主要解决的问题,是一些有规律可循的场景,从一定意义上理解,可以认为是对生成模型的解空间进行了限制和变换。在解决问题的风格上给人的感觉,有点像抽取式模型所做的风格了,比如对于一个关键词生成任务,如果我们不希望模型生成文章中没有出现过的token,那完全可以利用本文中类似的方法,把生成结果限定为文中出现过的token。

以上就是本文的全部内容,如果对你有所帮助或启发,记得留下一个免费的赞,我们下期再见。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/22110.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

T31开发笔记:librtmp拉流测试

若该文为原创文章,转载请注明原文出处。 T31使用librtmp拉流并保存成FLV文件或H264和AAC文件。 librtmp编译在前面有教程,自行编译。 实现的目的是想要获取获取rtmp的AAC流并播放,实时双向对讲功能。 一、硬件和开发环境 1、硬件&#xff1…

Vue组件化开发--公共组件的封装

在Vue中,组件是构建用户界面的基本单位。封装公共组件是一种良好的实践,可以提高代码的可复用性和可维护性。下面是一个示例,演示了如何封装一个公共的按钮组件。 首先,创建一个名为Button.vue的Vue组件文件。这个组件将封装一个…

node.js相关的npm包的集合

一、实用功能 1. qs 一个简单易用的字符串解析和格式化库 2.rxjs RxJS是一组模块化的库,用于使用 JavaScript 中的可观察集合和组合来组合异步和基于事件的程序。 3. mitt 微型 200b 功能事件发射器/发布订阅. 4.Underscore.js Underscore.js是一个用于 JavaScript…

Linux C++ 链接数据库并对数据库进行一些简单的操作

一.引言(写在之前) 在我们进行网络业务代码书写的时候,我们总是避免对产生的数据进行增删改查,为此,本小博主在这里简历分享一下自己在Linux中C语言与数据之间交互的代码的入门介绍。 二.代码书写以及一些变量和函数的…

Vue3 nodejs 安装和配置---vue3教程一

文章目录 前言1、nodejs安装2、配置缓存路径:3、 阿里镜像cnpm使用4、 yarn安装5、配置nodejs国内镜像6、查看各个版本7、node npm yarn概念8、nodejs 和vue 关系外传 前言 本人主做后端Java,以前搞全栈开发是,还没有vue,rect等前端框架&…

MGRE综合

实验 一、实验思路 1.先按照上图配置IP地址及环回 2.写缺省使公网可通 3.让R1、R4、R5每台路由器均成为中心站点形成全连网状结构拓扑 4.让R1成为中心站点R2R3为分支站点 5.分区域宣告ospf之后更改ospf在虚拟接口Tunnel工作方式为broadcast及让R1 当选DR 二、上虚拟机操作…

[CKA]考试之一个 Pod 封装多个容器

由于最新的CKA考试改版,不允许存储书签,本博客致力怎么一步步从官网把答案找到,如何修改把题做对,下面开始我们的 CKA之旅 题目为: Task 创建一个Pod,名字为kucc1,这个Pod包含4容器&#xff…

《向量数据库指南》——腾讯云向量数据库Tencent Cloud Vector DB正式上线公测!提供10亿级向量检索能力

8月1日,腾讯云向量数据库(Tencent Cloud Vector DB)已正式上线公测。在腾讯云官网上搜索“向量数据库”,就可以正式体验该产品。 腾讯云向量数据库不仅能为大模型提供外部知识库,提高大模型回答的准确性,还可广泛应用于推荐系统、文本图像检索、自然语言处理等 AI 领域。…

Vue的 hash 模式与 history 模式

为了能够在改变视图的同时,不向后端发出网络请求。浏览器提供了 hash 模式与 history 模式。 而 vue 中的路由器就是利用了这两种模式,来实现前端路由的。 路由器的 hash 模式: 一、在 router 目录下的 index.js 文件中,通过 m…

JVM 学习—— 类加载机制

前言 在上一篇文章中,荔枝梳理了有关Java中JVM体系架构的相关知识,其中涉及到的有关Java类加载机制的相关知识并没有过多描述。那么在这篇文章中,荔枝会详细梳理一下有关JVM的类加载机制和双亲委派模型的知识,希望能够帮助到有需要…

时间复杂度接近O(n)的三种排序算法

1.桶排序 桶排序,顾名思义,会用到“桶”,核心思想是将要排序的数据分到几个有 序的桶里,每个桶内的数据再单独进行排序。桶内排完序之后,再把每个桶内的数据按照顺序依次 取出,组成的序列就是有序的了。 …

使用vue creat搭建项目

一、查看是否安装node和npm(显示版本号说明安装成功) node -v npm -v 显示版本号说明安装成功,如果没有安装,则需要先安装。 二、安装vue-cli脚手架 查看安装的版本(显示版本号说明安装成功) vue -V 三…

【雕爷学编程】 MicroPython动手做(35)——体验小游戏3

知识点:什么是掌控板? 掌控板是一块普及STEAM创客教育、人工智能教育、机器人编程教育的开源智能硬件。它集成ESP-32高性能双核芯片,支持WiFi和蓝牙双模通信,可作为物联网节点,实现物联网应用。同时掌控板上集成了OLED…

30. 利用linprog 解决 生产决策问题(matlab程序)

1.简述 线线规划的几个基本性质:【文献[1]第46页】 (1)线性规划问题的可行域如果非空,则是一个凸集-凸多面体; (2)如果线性规划问题有最优解,那么最优解可在可行域的顶点中确定; (3)如果可行域有界,且可行域…

企业电子招投标系统源码之电子招投标系统建设的重点和未来趋势 tbms

​ 功能模块: 待办消息,招标公告,中标公告,信息发布 描述: 全过程数字化采购管理,打造从供应商管理到采购招投标、采购合同、采购执行的全过程数字化管理。通供应商门户具备内外协同的能力,为…

tfserving

文章目录 部署测试模型传参优化 部署 docker run -dit -p 8501:8501 -p 8500:8500 -v /data1/minisearch/modelzoo/deepfm/models:/models/deepfm -e MODEL_NAMEdeepfm -e TF_CPP_MIN_VLOG_LEVEL1 $image_nameTF_CPP_MIN_VLOG_LEVEL1设置打印日志类型,如下 2023-0…

SpringBoot + ajax 实现分页和增删查改

0目录 1.SpringBoot 2.SpringBoot分页;增删改查 1.SpringBoot分页 创建数据库和表 创建SpringBoot工程,引入springboot下的分页依赖 配置application.yml 实体类 Mapper接口 Mapper.xml Service接口 Service实现类 控制层 测试 加…

Kotlin单例代码实例

目录 一、饿汉式的实现二、懒汉式的实现三、安全 懒汉式的实现四、双重校验DCL 的实现 一、饿汉式的实现 Kotlin版本 object SingletonDemoKt/*** 背后的逻辑代码:public final class SingletonDemoKt {public static final SingletonDemoKt INSTANCE;private Si…

新手Vite打包工具的使用并解决yarn create vite报错

一、手动创建 1.创建vite-Demo文件夹 2.初始化 yarn init -y 3.安装vite yarn add -D vite 4.打包准备 说明&#xff1a;不需要在src下面创建&#xff0c;在vite-Demo文件夹创建 4.1index.js文件 document.body.insertAdjacentHTML("beforeend","<h1>…

Linux6.30 Kubernetes 基础

文章目录 计算机系统5G云计算第一章 LINUX Kubernetes 基础一、Kubernetes 概述1.K8S 是什么2.为什么要用 K8S3.Kubernetes 集群架构与组件4.核心组件——Master 组件1&#xff09;Kube-apiserver2&#xff09;Kube-controller-manager3&#xff09;Kube-scheduler 5.核心组件—…