文献阅读：Mistral 7B

文献阅读：Mistral 7B

news/2025/4/27 7:43:53/文章来源:https://blog.csdn.net/codename_cys/article/details/136608457

文献阅读：Mistral 7B
- 1. 文章简介
- 2. 模型结构说明
  - 1. SWA (Sliding Window Attention)
  - 2. Rolling Buffer Cache
  - 3. Pre-fill and Chunking
- 3. 实验考察 & 结论
  - 1. 基础实验
  - 2. Instruction Tuning
  - 3. 安全性分析
- 4. 总结 & 思考

文献链接：https://arxiv.org/abs/2310.06825
GitHub链接：https://github.com/mistralai/mistral-src
官网链接：https://mistral.ai/news/announcing-mistral-7b/

1. 文章简介

这篇文章是上年10月Mistral提出的一个小的LLM模型。

作为微软最主要的OpenAI的备胎公司之一，他们的模型自然也是有着不错的效果，文中宣称他们通过对模型本身的调优，使得他们在7B的模型上就获得了超越Llama2 13B模型的效果。尤其后续他们使用Mistral 7B模型进行ensemble获得的SMoE模型更是宣称可以比肩GPT4。

当然，这种夸口自然是多少有一定的水分，不过无碍于我们去了解一下这个模型，看看他们的工作能否在我们自己的工作当中得到一定的借鉴。

不过，考虑到现在的工作越来越像是一个prompt后端工程师，我又双叒叕emo了……

2. 模型结构说明

首先，Mistral 7B模型还是一个基于Llama的Transformer架构下的优化模型，其基础的参数设计如下：

在这里插入图片描述

而在此基础上，文中主要做出了以下三部分的内容的修改：

SWA (Sliding Window Attention)
Rolling Buffer Cache
Pre-fill and Chunking

下面，我们来注意考察一下这三部分的内容。

1. SWA (Sliding Window Attention)

首先，文中在Llama的基础上上做出的第一个调整是将attention结构调整为了Sliding Window Attention，其具体结构可以参考下述示意图：

在这里插入图片描述

整体来看，SWA就是在attention的context长度窗口上进行了一下截断，和Linear Attention原理上相差不多，不过Linear Attention只保留了临近几个token的attention，而文中的window长度如上述参数表所示，还是保留了比较长的（4096/8192）。

2. Rolling Buffer Cache

文中做出的第二个改进点在于加入了Rolling Buffer Cache，其具体结构如下：

在这里插入图片描述

整体来说，他就是使用一个有限的cache来存储key-value，从而节省内存空间，使得GPU使用上更有效率，对于模型效果倒是没有影响。

3. Pre-fill and Chunking

文中做出的最后一个调整是关于infer阶段的，具体来说，考虑到prompt往往是固定的，因此文中使用他们称之为Pre-fill and Chunking的方法提前处理掉固定的prompt，将其提前放知道2中提到的cache当中。

其demo示意图如下：

在这里插入图片描述

3. 实验考察 & 结论

给出了Mistral 7B模型的整体模型设计之后，我们来看一下文中针对Mistral 7B模型的效果考察。

1. 基础实验

首先，关于Mistral 7B模型的常规实验考察，文中主要是在以下几个任务上进行的考察：

Commonsense Reasoning (0-shot)
World Knowledge (5-shot)
Reading Comprehension (0-shot)
Math
Code
Popular aggregated results

得到实验结果如下：

在这里插入图片描述

在这里插入图片描述

可以看到，在各类任务当中，Mistral 7B模型基本上是碾压了Llama2 7B甚至13B模型的。

更进一步地，文中绘制了不同size的Llama2模型的效果与Mistral 7B模型进行了比较，并对比了两者的执行效率，得到结果如下：

在这里插入图片描述

可以看到，Mistral 7B模型基本就是纯碾压。

2. Instruction Tuning

除了在预训练模型上的基础考察之外，文中还考察了一下经过了Instruction Tuning之后的Mistral 7B模型的效果，得到结果如下：

在这里插入图片描述

可以看到，在排行榜上，Mistral 7B模型也是干掉了Llama2 13B模型，有一个很好的排名。

3. 安全性分析

最后，文中还考察了一下Mistral 7B模型的安全性，具体包括两方面：

能否避免对有害问题给出回复
能否正确区分有害问题

文中首先在175个有害prompt下考察了一下Mistral 7B与其他一些模型的效果，得到结果如下：

在这里插入图片描述

可以看到Mistral 7B效果不输于Llama 13B模型。

另一方面，文中给出了一个kill linux进程的case来说明了一下Mistral 7B可以更准确地识别出问题的有害性，较不容易带来误伤。

在这里插入图片描述

4. 总结 & 思考

综上，这篇短论文提出了Mistral 7B的模型，它是在Llama2基础上的另一个LLM，且宣称获得了更好的效果。

这个模型已经开源了，有空的话后面可以试一下，作为微软重点押注的AGI公司，可以期待一下后续的发展。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/735549.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

5 分钟掌握一个常用正则表达式 No.1 竖线

5 分钟掌握一个常用正则表达式 No.1 竖线

1. 今天的例子是关于竖线的例1：正则匹配包含至少 1 个 a 或 1 个 b 创建一个正则表达式以匹配字符 “a” 或 “b”，可以使用竖线符号 (|) 来表示或操作，正则表达式将匹配任何包含 “a” 或 “b” 的字符串。这里是一个简单的例子&#xff…

阅读更多...

【牛客】2024牛客寒假算法基础集训营6ABCDEGHIJ

【牛客】2024牛客寒假算法基础集训营6ABCDEGHIJ

文章目录 A 宇宙的终结题目大意主要思路代码 B 爱恨的纠葛题目大意主要思路代码 C 心绪的解剖题目大意主要思路代码 D 友谊的套路题目大意主要思路代码 E 未来的预言题目大意主要思路代码 G 人生的起落题目大意主要思路代码 I 时空的交织题目大意主要思路代码 J 绝妙的平衡题目…

阅读更多...

大数据时代的数据保护：分布式存储系统的七大原则

大数据时代的数据保护：分布式存储系统的七大原则

第一原则：“灾”和“备”，区分容灾切换与数据备份的区别管理对象管理对象防什么？ 底层逻辑核心评价指标容灾切换 IT环境与业物理灾难 …

阅读更多...

物联网开发 11 ESP32 和 ESP8266 比较有哪些不同？

物联网开发 11 ESP32 和 ESP8266 比较有哪些不同？

首先，ESP32和ESP8266都是性价比非常高的Wi-Fi模块，都非常适合用来做物联网（IoT）领域的项目。两款芯片都属于32位处理器，ESP32是双核160MHz至240MHz CPU，而ESP8266是单核处理器，运行频率为80MHz。…

阅读更多...

neo4j配置文件的默认展示地址

neo4j配置文件的默认展示地址

默认展示地址功能：会显示在网页的标签页，实际的数据是你填写的ip地址的neo4j数据。例如：我在100服务器部署neo4j，但是dbms.connectors.default_advertised_address参数填写的是200服务器的地址，并且200服务器也部署了…

阅读更多...

ChatGPT unable to load conversion原因和解决的方法

ChatGPT unable to load conversion原因和解决的方法

一、ChatGPT unable to load conversion的原因在使用ChatGPT的时候，新建对话，出现了对话的具体编号ID： unable to load conversion 具体的编号是由于以下的原因： 1、OpenAI端的问题：服务器过载，无法有…

阅读更多...

2024.3.10 训练记录（12）

2024.3.10 训练记录（12）

补一下下午组队赛的题文章目录 ICPC 2018青岛D Magic MultiplicationICPC 2018青岛E Plants vs. ZombiesICPC 2018青岛F Tournament ICPC 2018青岛D Magic Multiplication 题目链接先枚举 a 的第一位是哪个数字，然后通过 a 的第一位可以推出 b 的整个串&#x…

阅读更多...

【fastllm】学习框架，本地运行，速度还可以，可以成功运行chatglm2模型

【fastllm】学习框架，本地运行，速度还可以，可以成功运行chatglm2模型

1，关于 fastllm 项目 https://www.bilibili.com/video/BV1fx421k7Mz/?vd_source4b290247452adda4e56d84b659b0c8a2 【fastllm】学习框架，本地运行，速度还可以，可以成功运行chatglm2模型 https://github.com/ztxz16/fastllm &am…

阅读更多...

10个高级的 SQL 查询技巧

10个高级的 SQL 查询技巧

1.常见表表达式（CTEs） 如果您想要查询子查询，那就是CTEs施展身手的时候 - CTEs基本上创建了一个临时表。使用常用表表达式（CTEs）是模块化和分解代码的好方法，与您将文章分解为几个段落的方式相同。请在…

阅读更多...

vue ui Starting GUI 图形化配置web新项目

vue ui Starting GUI 图形化配置web新项目

前言：在vue框架里面， 以往大家都是习惯用命令行 vue create 、vue init webpack创建新前端项目，而vue ui是一个可视化的图形界面，对于新手来说更加友好了，不但可以创建、管理、还可以更新vue项目，也可以下载…

阅读更多...

LTspice(14) Noise仿真

LTspice(14) Noise仿真

LTspice(14) Noise仿真好久没有更新LTspice的教程了，大家想了没？ 截止目前LTspice已经更新到24.0.9。界面发生了一些变化，但主要功能并不受影响，新的版本改了UI，找东西更加方便了，界面如下图1所示。图1…

阅读更多...

LLVM TableGen 系统学习笔记

LLVM TableGen 系统学习笔记

Basic TableGen 系统可以帮助记录领域特定的信息。它也可以认为是一种小型的编译系统。 TableGen 责负分析文件， 分析结果交给领域特定的后端进行处理。重要的概念 records 一个 record 有一个独立的名称，一系列值和一系列父类。它保存了特定领域…

阅读更多...

【前沿技术】讲解

【前沿技术】讲解

前沿技术前沿技术是指处于科学研究和技术开发最前端的技术，这些技术具有高度的创新性和潜在的影响力，它们推动了科技进步和产业转型。讲解一些当前的前沿技术，我们可以从以下几个方面进行： 人工智能（AI）:…

阅读更多...

Unity InputField宽度自适应内容

Unity InputField宽度自适应内容

在Unity中，InputField在我们输入内容时，只会显示适应初始宽度的最新内容，或者自定义长度内容。那么，要实现宽度自适应内容就需要另寻他法了。以下是通过一个控制脚本来实现的一个简单方法。直接上脚本： using S…

阅读更多...

linux Shell 命令行-02-var 变量

linux Shell 命令行-02-var 变量

拓展阅读 linux Shell 命令行-00-intro 入门介绍 linux Shell 命令行-02-var 变量 linux Shell 命令行-03-array 数组 linux Shell 命令行-04-operator 操作符 linux Shell 命令行-05-test 验证是否符合条件 linux Shell 命令行-06-flow control 流程控制 linux Shell 命…

阅读更多...

JAVA笔记15（程序控制结构）

JAVA笔记15（程序控制结构）

1.程序控制结构 1.1 顺序控制 *介绍：程序从上到下逐行地执行，中间没有任何判断和跳转 1.2 分支控制 *分支控制If - else 1.单分支 *基本语法： if(条件表达式){ 语句; } 条件表达式为true时，会执行下面语句…

阅读更多...

Leetcode 59.螺旋矩阵Ⅱ

Leetcode 59.螺旋矩阵Ⅱ

1.题目 2.思路 （借用代码随想录的图） 1.我们将转一圈看作一个循环（1->2->3->4->5->6->7->8 这是一个循环） 2.在这个循环里，我们要画四条边（上右下左） 填充上行从左到右填…

阅读更多...

第三百九十三回

第三百九十三回

文章目录 1. 概念介绍2. 生命周期及其方法2.1 生命周期2.2 回调方法2.3 使用方法 3. 示例代码4. 内容总结我们在上一章回中介绍了"显示Snackbar的另外一种方法"相关的内容，本章回中将介绍如何监听组件的生命周期.闲话休提，让我们一起Talk Flu…

阅读更多...

Vue扩展知识简单了解

Vue扩展知识简单了解

引入vue-router 要引入vue-router，首先需要安装它。在项目目录下执行以下命令： npm install vue-router然后，在你的Vue项目中，可以通过以下方式引入和使用vue-router： // main.js import Vue from vue import App f…

阅读更多...

基于Vue的预约停车位APP设计与实现

基于Vue的预约停车位APP设计与实现

目录摘要 I Abstract II 引言 1 1 相关技术 3 1.1 Vue简介 3 1.2 Node.js简介 3 1.3 JavaScript基本介绍 4 1.4 Ajax基本介绍 4 1.5 本章小结 4 2 软件需求分析与体系结构设计 5 2.1 系统定义用户 5 2.2 系统功能需求描述 5 2.3 系统用例分析 6 2. 3. 1 用户用例分析 6 2.…

阅读更多...

最新文章