文献阅读:Mistral 7B

  • 文献阅读:Mistral 7B
    • 1. 文章简介
    • 2. 模型结构说明
      • 1. SWA (Sliding Window Attention)
      • 2. Rolling Buffer Cache
      • 3. Pre-fill and Chunking
    • 3. 实验考察 & 结论
      • 1. 基础实验
      • 2. Instruction Tuning
      • 3. 安全性分析
    • 4. 总结 & 思考
  • 文献链接:https://arxiv.org/abs/2310.06825
  • GitHub链接:https://github.com/mistralai/mistral-src
  • 官网链接:https://mistral.ai/news/announcing-mistral-7b/

1. 文章简介

这篇文章是上年10月Mistral提出的一个小的LLM模型。

作为微软最主要的OpenAI的备胎公司之一,他们的模型自然也是有着不错的效果,文中宣称他们通过对模型本身的调优,使得他们在7B的模型上就获得了超越Llama2 13B模型的效果。尤其后续他们使用Mistral 7B模型进行ensemble获得的SMoE模型更是宣称可以比肩GPT4。

当然,这种夸口自然是多少有一定的水分,不过无碍于我们去了解一下这个模型,看看他们的工作能否在我们自己的工作当中得到一定的借鉴。

不过,考虑到现在的工作越来越像是一个prompt后端工程师,我又双叒叕emo了……

2. 模型结构说明

首先,Mistral 7B模型还是一个基于Llama的Transformer架构下的优化模型,其基础的参数设计如下:

在这里插入图片描述

而在此基础上,文中主要做出了以下三部分的内容的修改:

  1. SWA (Sliding Window Attention)
  2. Rolling Buffer Cache
  3. Pre-fill and Chunking

下面,我们来注意考察一下这三部分的内容。

1. SWA (Sliding Window Attention)

首先,文中在Llama的基础上上做出的第一个调整是将attention结构调整为了Sliding Window Attention,其具体结构可以参考下述示意图:

在这里插入图片描述

整体来看,SWA就是在attention的context长度窗口上进行了一下截断,和Linear Attention原理上相差不多,不过Linear Attention只保留了临近几个token的attention,而文中的window长度如上述参数表所示,还是保留了比较长的(4096/8192)。

2. Rolling Buffer Cache

文中做出的第二个改进点在于加入了Rolling Buffer Cache,其具体结构如下:

在这里插入图片描述

整体来说,他就是使用一个有限的cache来存储key-value,从而节省内存空间,使得GPU使用上更有效率,对于模型效果倒是没有影响。

3. Pre-fill and Chunking

文中做出的最后一个调整是关于infer阶段的,具体来说,考虑到prompt往往是固定的,因此文中使用他们称之为Pre-fill and Chunking的方法提前处理掉固定的prompt,将其提前放知道2中提到的cache当中。

其demo示意图如下:

在这里插入图片描述

3. 实验考察 & 结论

给出了Mistral 7B模型的整体模型设计之后,我们来看一下文中针对Mistral 7B模型的效果考察。

1. 基础实验

首先,关于Mistral 7B模型的常规实验考察,文中主要是在以下几个任务上进行的考察:

  1. Commonsense Reasoning (0-shot)
  2. World Knowledge (5-shot)
  3. Reading Comprehension (0-shot)
  4. Math
  5. Code
  6. Popular aggregated results

得到实验结果如下:

在这里插入图片描述

在这里插入图片描述

可以看到,在各类任务当中,Mistral 7B模型基本上是碾压了Llama2 7B甚至13B模型的。

更进一步地,文中绘制了不同size的Llama2模型的效果与Mistral 7B模型进行了比较,并对比了两者的执行效率,得到结果如下:

在这里插入图片描述

可以看到,Mistral 7B模型基本就是纯碾压。

2. Instruction Tuning

除了在预训练模型上的基础考察之外,文中还考察了一下经过了Instruction Tuning之后的Mistral 7B模型的效果,得到结果如下:

在这里插入图片描述

可以看到,在排行榜上,Mistral 7B模型也是干掉了Llama2 13B模型,有一个很好的排名。

3. 安全性分析

最后,文中还考察了一下Mistral 7B模型的安全性,具体包括两方面:

  1. 能否避免对有害问题给出回复
  2. 能否正确区分有害问题

文中首先在175个有害prompt下考察了一下Mistral 7B与其他一些模型的效果,得到结果如下:

在这里插入图片描述

可以看到Mistral 7B效果不输于Llama 13B模型。

另一方面,文中给出了一个kill linux进程的case来说明了一下Mistral 7B可以更准确地识别出问题的有害性,较不容易带来误伤。

在这里插入图片描述

4. 总结 & 思考

综上,这篇短论文提出了Mistral 7B的模型,它是在Llama2基础上的另一个LLM,且宣称获得了更好的效果。

这个模型已经开源了,有空的话后面可以试一下,作为微软重点押注的AGI公司,可以期待一下后续的发展。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/735549.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

5 分钟掌握一个常用正则表达式 No.1 竖线

1. 今天的例子是关于竖线的 例1:正则匹配包含至少 1 个 a 或 1 个 b 创建一个正则表达式以匹配字符 “a” 或 “b”,可以使用竖线符号 (|) 来表示或操作,正则表达式将匹配任何包含 “a” 或 “b” 的字符串。这里是一个简单的例子&#xff…

【牛客】2024牛客寒假算法基础集训营6ABCDEGHIJ

文章目录 A 宇宙的终结题目大意主要思路代码 B 爱恨的纠葛题目大意主要思路代码 C 心绪的解剖题目大意主要思路代码 D 友谊的套路题目大意主要思路代码 E 未来的预言题目大意主要思路代码 G 人生的起落题目大意主要思路代码 I 时空的交织题目大意主要思路代码 J 绝妙的平衡题目…

大数据时代的数据保护:分布式存储系统的七大原则

第一原则:“灾”和“备”,区分容灾切换与数据备份的区别 管理对象 管理对象 防什么? 底层逻辑 核心评价指标 容灾切换 IT环境与业 物理灾难 …

物联网开发 11 ESP32 和 ESP8266 比较有哪些不同?

首先,ESP32和ESP8266都是性价比非常高的Wi-Fi模块,都非常适合用来做物联网(IoT)领域的项目。两款芯片都属于32位处理器,ESP32是双核160MHz至240MHz CPU,而ESP8266是单核处理器,运行频率为80MHz。…

neo4j配置文件的默认展示地址

默认展示地址 功能:会显示在网页的标签页,实际的数据是你填写的ip地址的neo4j数据。 例如:我在100服务器部署neo4j,但是dbms.connectors.default_advertised_address参数填写的是200服务器的地址,并且200服务器也部署了…

ChatGPT unable to load conversion原因和解决的方法

一、ChatGPT unable to load conversion的原因 在使用ChatGPT的时候,新建对话,出现了对话的具体编号ID: unable to load conversion 具体的编号 是由于以下的原因: 1、OpenAI端的问题:服务器过载,无法有…

2024.3.10 训练记录(12)

补一下下午组队赛的题 文章目录 ICPC 2018青岛D Magic MultiplicationICPC 2018青岛E Plants vs. ZombiesICPC 2018青岛F Tournament ICPC 2018青岛D Magic Multiplication 题目链接 先枚举 a 的第一位是哪个数字,然后通过 a 的第一位可以推出 b 的整个串&#x…

【fastllm】学习框架,本地运行,速度还可以,可以成功运行chatglm2模型

1,关于 fastllm 项目 https://www.bilibili.com/video/BV1fx421k7Mz/?vd_source4b290247452adda4e56d84b659b0c8a2 【fastllm】学习框架,本地运行,速度还可以,可以成功运行chatglm2模型 https://github.com/ztxz16/fastllm &am…

10个高级的 SQL 查询技巧

1.常见表表达式(CTEs) 如果您想要查询子查询,那就是CTEs施展身手的时候 - CTEs基本上创建了一个临时表。 使用常用表表达式(CTEs)是模块化和分解代码的好方法,与您将文章分解为几个段落的方式相同。 请在…

vue ui Starting GUI 图形化配置web新项目

前言:在vue框架里面, 以往大家都是习惯用命令行 vue create 、vue init webpack创建新前端项目,而vue ui是一个可视化的图形界面,对于新手来说更加友好了,不但可以创建、管理、还可以更新vue项目,也可以下载…

LTspice(14) Noise仿真

LTspice(14) Noise仿真 好久没有更新LTspice的教程了,大家想了没? 截止目前LTspice已经更新到24.0.9。界面发生了一些变化,但主要功能并不受影响,新的版本改了UI,找东西更加方便了,界面如下图1所示。 图1…

LLVM TableGen 系统学习笔记

Basic TableGen 系统可以帮助记录领域特定的信息。它也可以认为是一种小型的编译系统。 TableGen 责负分析文件, 分析结果交给领域特定的后端进行处理。 重要的概念 records 一个 record 有一个独立的名称,一系列值和一系列父类。 它保存了特定领域…

【前沿技术】讲解

前沿技术 前沿技术是指处于科学研究和技术开发最前端的技术,这些技术具有高度的创新性和潜在的影响力,它们推动了科技进步和产业转型。讲解一些当前的前沿技术,我们可以从以下几个方面进行: 人工智能(AI):…

Unity InputField宽度自适应内容

在Unity中,InputField在我们输入内容时,只会显示适应初始宽度的最新内容,或者自定义长度内容。 那么,要实现宽度自适应内容就需要另寻他法了。 以下是通过一个控制脚本来实现的一个简单方法。 直接上脚本: using S…

linux Shell 命令行-02-var 变量

拓展阅读 linux Shell 命令行-00-intro 入门介绍 linux Shell 命令行-02-var 变量 linux Shell 命令行-03-array 数组 linux Shell 命令行-04-operator 操作符 linux Shell 命令行-05-test 验证是否符合条件 linux Shell 命令行-06-flow control 流程控制 linux Shell 命…

JAVA笔记15(程序控制结构)

1.程序控制结构 1.1 顺序控制 ​ *介绍:程序从上到下逐行地执行,中间没有任何判断和跳转 1.2 分支控制 ​ *分支控制If - else 1.单分支 ​ *基本语法: if(条件表达式){​ 语句;​ }​ 条件表达式为true时,会执行下面语句…

Leetcode 59.螺旋矩阵Ⅱ

1.题目 2.思路 (借用代码随想录的图) 1.我们将转一圈看作一个循环(1->2->3->4->5->6->7->8 这是一个循环) 2.在这个循环里,我们要画四条边(上右下左) 填充上行从左到右 填…

第三百九十三回

文章目录 1. 概念介绍2. 生命周期及其方法2.1 生命周期2.2 回调方法2.3 使用方法 3. 示例代码4. 内容总结 我们在上一章回中介绍了"显示Snackbar的另外一种方法"相关的内容,本章回中将介绍如何监听组件的生命周期.闲话休提,让我们一起Talk Flu…

Vue扩展知识简单了解

引入vue-router 要引入vue-router,首先需要安装它。在项目目录下执行以下命令: npm install vue-router然后,在你的Vue项目中,可以通过以下方式引入和使用vue-router: // main.js import Vue from vue import App f…

基于Vue的预约停车位APP设计与实现

目 录 摘 要 I Abstract II 引 言 1 1 相关技术 3 1.1 Vue简介 3 1.2 Node.js简介 3 1.3 JavaScript基本介绍 4 1.4 Ajax基本介绍 4 1.5 本章小结 4 2 软件需求分析与体系结构设计 5 2.1 系统定义用户 5 2.2 系统功能需求描述 5 2.3 系统用例分析 6 2. 3. 1 用户用例分析 6 2.…