NLP实践——使用Llama-2进行中文对话

NLP实践——使用Llama-2进行中文对话

  • 1. 前言
  • 2. 利用prompt
  • 3. 利用Logit Processor
    • 3.1 修改1
    • 3.2 修改2
    • 3.3 修改3
    • 3.4 修改4

1. 前言

在之前的博客 NLP实践——Llama-2 多轮对话prompt构建中,介绍了如何构建多轮对话的prompt,本文将介绍如何使用Llama-2进行中文对话。

现有的很多项目,在开源的Llama-2基础上,进行了中文场景的训练,然而Llama-2本身就具有多语种的能力,理论上是可以直接运用于中文场景的。

本文所举例使用的模型为Llama-2-7b-chat-hf。

2. 利用prompt

首先可以想到的是,使用prompt。可是即便是在prompt中添加了要求模型回答中文的提示,模型仍然回答的是英文。

从对话内容可以看到,模型可以理解用户的问题,却没有输出中文:

>> '你好'
>> "Hello! 😊 I'm here to help answer any questions you may have. Is there something specific you'd like to know or discuss? Please feel free to ask, and I'll do my best to assist you. 🤖"

3. 利用Logit Processor

在之前另一篇博客 以Llama-2为例,在生成模型中使用自定义LogitsProcessor中,介绍了怎样使用logits processor来改变生成过程中的概率,进而改变生成的结果。那么可以直接想到的是,把tokenizer中所有中文字符的概率调大一些,就可以强行要求模型生成中文了。

3.1 修改1

首先利用unicode范围获取常见的汉字:

import re
def is_chinese(word):"""判断一个字符串是否为汉字"""if re.match('[\u4e00-\u9fff]', word):return Trueelse:return FalseCHINESE_TOKEN_IDS = [token_id for token, token_id in tokenizer.vocab.items() if is_chinese(token)]

然后就可以实现一个processor来提高这些token对应的概率:

from transformers.generation.logits_process import LogitsProcessor, LogitsProcessorListclass ChineseLogitsProcessor(LogitsProcessor):"""生成中文字符---------------ver: 2023-08-02by: changhongyu"""def __init__(self, chinese_token_id_list: List[int] = None,alpha: float = 5):""":param chinese_token_id_list: 中文token的token的id列表:param alpha: 放大倍数"""self.chinese_token_id_list = chinese_token_id_listself.alpha = alphadef __call__(self, input_ids: torch.LongTensor, scores: torch.FloatTensor) -> torch.FloatTensor:for id_ in self.chinese_token_id_list:scores[:, id_] *= self.alphareturn scores

在生成之前,按照之前博客中介绍的方法,创建processor:

logits_processor = LogitsProcessorList()
logits_processor.append(ChineseLogitsProcessor(CHINESE_TOKEN_IDS))

3.2 修改2

然而,模型却生成起来停不下了。这是因为没有将EOS token的概率也做相应的放大。

CHINESE_TOKEN_IDS.append(tokenizer.eos_token_id)

这下,模型可以输出中文了:

>> '你好'
>> '好的好的大家好的我是一个智能问题机器人我可以回应你的问题请问你有任何问题或需要我的服务'

可是看起来好像哪里怪怪的,原来是没有标点。

3.3 修改3

既然没有标点,那我们再把标点符号的概率也放大就好了:

puncs = [',', '。', '?', '!', '“', '”', ':', ',', '.', '?', '!', '"', "'", ':']
CHINESE_TOKEN_IDS = [token_id for token, token_id in tokenizer.vocab.items() if is_chinese(token)]
CHINESE_TOKEN_IDS.extend(tokenizer.convert_tokens_to_ids(puncs))
CHINESE_TOKEN_IDS.append(tokenizer.eos_token_id)

现在,eos也有了,标点符号也有了,然而还是出意外了:

>> '你好'
>> '::你好!我是一个智能问题机器人,我的任务是回应用户的问题。请问你有任何问题?'

3.4 修改4

现在模型倒是可以说中文,也带标点了,但标点出现在了最开头。这样的话,我们可以再添加一个processor,不让这些标点出现在最开始就可以了。

class SuppressSpecificBOSTokenLogitsProcessor(LogitsProcessor):"""防止生成的第一个token是某些特定的token---------------ver: 2023-08-02by: changhongyu"""def __init__(self, bad_bos_token_id_list: List[int] = None):""":param bad_bos_token_id_list: 不可以作为第一个token的token的id列表"""self.bad_bos_token_id_list = bad_bos_token_id_listdef __call__(self, input_ids: torch.LongTensor, scores: torch.FloatTensor) -> torch.FloatTensor:new_token_len = input_ids.shape[-1] - current_token_lenif new_token_len == 0:for id_ in self.bad_bos_token_id_list:scores[:, id_] = -float('inf')return scores

将两个processor放在一起:

logits_processor = LogitsProcessorList()
logits_processor.append(ChineseLogitsProcessor(CHINESE_TOKEN_IDS))
logits_processor.append(SuppressSpecificBOSTokenLogitsProcessor([tokenizer.convert_tokens_to_ids(punc) for punc in puncs]))

终于,可以让模型实现中文对话了:

>> '你好'
>> '好的,好的!你好!对不起,我不知道你问的问题,请问你想问些事情?'

虽然回答的还是有点奇怪,但使用中文与模型进行对话的目的,也的的确确是达到了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/29873.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Celery的基本使用

1.Celery介绍 1.1 Celery是什么? Celery是Python开发的简单、灵活可靠的、处理大量消息的分布式任务调度模块专注于实时处理的异步任务队列同时也支持任务调度 Celery本身不含消息服务,它使用第三方消息服务来传递任务,目前,Ce…

无涯教程-Perl - 格式化

Perl使用称为“formats”的模板来输出内容。要使用Perl的格式函数,必须先定义一种格式,然后才能使用该格式写入格式化的数据。 定义格式 以下是定义Perl格式的语法- format FormatName fieldline value_one, value_two, value_three fieldline value…

图像的平移变换之c++实现(qt + 不调包)

1.基本原理 设dx为水平偏移量&#xff0c;dy为垂直偏移量&#xff0c;则平移变换的坐标映射关系为下公式&#xff0c;图像平移一般有两种方式。 1.不改变图像大小的平移&#xff08;一旦平移&#xff0c;相应内容被截掉&#xff09; 1&#xff09;当dx > width、dx < -wi…

(MVC)SpringBoot+Mybatis+Mapper.xml

前言&#xff1a;本篇博客主要对MVC架构、Mybatis工程加深下理解&#xff0c;前面写过一篇博客&#xff1a;SprintBoothtml/css/jsmybatis的demo&#xff0c;里面涉及到了Mybatis的应用&#xff0c;此篇博客主要介绍一种将sql语句写到了配置文件里的方法&#xff0c;即Mybatis里…

vue去掉所有输入框两边空格,封装指令去空格,支持Vue2和Vue3,ElementUI Input去空格

需求背景 就是页面很多表单输入框&#xff0c;期望在提交的时候&#xff0c;都要把用户两边的空格去掉 ❌使用 vue 的指令 .trim 去掉空格 中间会输入不了空格&#xff0c; 比如我想输入 你好啊 中国, 这中间的空格输入不了&#xff0c;只能变成 你好啊中国 ❌在提交的时候使用…

cesium学习记录04-坐标系

一、地理坐标系和投影坐标系的关系 地理坐标系 (Geographic Coordinate System, GCS) 定义&#xff1a;地理坐标系是一个基于三维地球表面的坐标系统。它使用经度和纬度来表示地点的位置。 特点&#xff1a; 使用经纬度来定义位置。 基于特定的地球参考椭球体。 适用于全球范…

设备固定资产管理系统

资产管理是企业经营和发展的基础&#xff0c;特别是设备资产管理。适当的设备资产管理可以有效地提升企业的经营效率&#xff0c;为提高核心竞争能力提供高效的前提。 固资及设备管理系统&#xff08;EAM&#xff09;它是一种有效的固定资产管理模式&#xff0c;可以帮助企业更…

不同组件之间相互传递信息的方式(拓展知识)

文章目录 &#x1f412;个人主页&#x1f3c5;JavaEE系列专栏&#x1f4d6;前言&#xff1a;&#x1f3e8;补充知识&#xff1a;不同组件之间通过get&#xff08;&#xff09;方式传递信息 &#x1f380;父组件与子组件之间的信息交互 $emit 方法&#x1f3c5;父组件给子组件发…

gradle 命令行单元测试执行问题

文章目录 问题&#xff1a;命令行 执行失败最终解决方案&#xff08;1&#xff09;ADB命令&#xff08;2&#xff09;Java 环境配置 问题&#xff1a;命令行 执行失败 命令行 执行测试命令 无法使用&#xff08;之前还能用的。没有任何改动&#xff0c;又不能用了&#xff09; …

Unity游戏源码分享-仿开心消消乐Match3Jewel

Unity游戏源码分享-仿开心消消乐Match3Jewel 工程地址&#xff1a; https://download.csdn.net/download/Highning0007/88198762

uniapp 微信小程序 上下滚动的公告通知(只取前3条)

效果图&#xff1a; <template><view class"notice" click"policyInformation"><view class"notice-icon"><image mode"aspectFit" class"img" src"/static/img/megaphone.png"></i…

企业权限管理(三)-产品添加

产品添加 从product-list.jsp跳转到product-add.jsp <button type"button" class"btn btn-default" title"新建" onclick"location.href${pageContext.request.contextPath}/pages/product-add.jsp"><iclass"fa fa-file…

spring技术栈面试题

1 Spring支持的事务管理类型有哪些&#xff1f;你在项目中使用哪种方式&#xff1f; Spring支持两种类型的事务管理&#xff1a; 编程式事务管理&#xff1a;这意味你通过编程的方式管理事务&#xff0c;给你带来极大的灵活性&#xff0c;但是难维护。声明式事务管理&#x…

springboot集成分布式任务调度系统xxl-job(调度器和执行器)

一、部署xxl-job服务端 下载xxl-job源码 下载地址&#xff1a; https://gitee.com/xuxueli0323/xxl-job 二、导入项目、创建xxl_job数据库、修改配置文件为自己的数据库 三、启动项目、访问首页 访问地址&#xff1a; http://localhost:8080/xxl-job-admin/ 账号&#xff1…

国产超低功耗32位MCU的应用

随着物联网技术的不断发展&#xff0c;超低功耗MCU已经成为了物联网方案中主要的芯片处理技术。超低功耗MCU具有众多的优点&#xff0c;其中一大所用就是能够大大提高物联网设备的续航能力&#xff0c;保证设备在长时间内不掉电不断电。那么&#xff0c;超低功耗MCU在物联网方案…

three.js修改内置材质着色器代码

通常我们是通过修改扩展three.js内置的材质来实现一些复杂的效果的&#xff0c;而不是使用shaderMaterial材质从零开始实现。比如说很满意MeshStandardMaterial&#xff08;一种常规材质&#xff09;的效果&#xff0c;但是我们希望在这个材质上添加一些顶点动画。如果我们打算…

手游联运平台的运营模式是什么?

手游联运平台的运营模式是指通过平台将多款手游进行联运和推广&#xff0c;从而实现游戏开发商、发行商和渠道方之间的合作与合力&#xff0c;共同推动游戏的发展与推广。具体来说&#xff0c;手游联运平台的运营模式主要包括以下几个方面&#xff1a; 游戏接入&#xff1a;手…

Python 程序设计入门(017)—— 选择结构程序设计

Python 程序设计入门&#xff08;017&#xff09;—— 选择结构程序设计 目录 Python 程序设计入门&#xff08;017&#xff09;—— 选择结构程序设计一、if 语句二、if…else 语句三、if…elif…else 语句四、多分支选择语句与字典相结合五、逻辑运算符 and六、逻辑运算符 or…

php webshell 免杀入门

webshell 查杀软件&#xff1a; d盾、安全狗、护卫神、Sangfor WebShellKill 在线查杀 百度WEBDIR https://scanner.baidu.com 河马 https://www.shellpub.com cloudwalker牧云 https://webshellchop.chaitin.cn 查杀技术 静态检测、动态检测、日志检查 静态检查&#xff1a…

【安卓串口通信】

安卓串口通信需要使用到串口适配器和USB OTG线。首先需要在Android设备上安装串口调试助手或其他支持串口通信的应用程序。然后将串口适配器连接到Android设备&#xff0c;使用USB OTG线连接即可。 接下来&#xff0c;您需要打开串口调试助手或其他应用程序&#xff0c…