文献阅读:Mistral 7B

  • 文献阅读:Mistral 7B
    • 1. 文章简介
    • 2. 模型结构说明
      • 1. SWA (Sliding Window Attention)
      • 2. Rolling Buffer Cache
      • 3. Pre-fill and Chunking
    • 3. 实验考察 & 结论
      • 1. 基础实验
      • 2. Instruction Tuning
      • 3. 安全性分析
    • 4. 总结 & 思考
  • 文献链接:https://arxiv.org/abs/2310.06825
  • GitHub链接:https://github.com/mistralai/mistral-src
  • 官网链接:https://mistral.ai/news/announcing-mistral-7b/

1. 文章简介

这篇文章是上年10月Mistral提出的一个小的LLM模型。

作为微软最主要的OpenAI的备胎公司之一,他们的模型自然也是有着不错的效果,文中宣称他们通过对模型本身的调优,使得他们在7B的模型上就获得了超越Llama2 13B模型的效果。尤其后续他们使用Mistral 7B模型进行ensemble获得的SMoE模型更是宣称可以比肩GPT4。

当然,这种夸口自然是多少有一定的水分,不过无碍于我们去了解一下这个模型,看看他们的工作能否在我们自己的工作当中得到一定的借鉴。

不过,考虑到现在的工作越来越像是一个prompt后端工程师,我又双叒叕emo了……

2. 模型结构说明

首先,Mistral 7B模型还是一个基于Llama的Transformer架构下的优化模型,其基础的参数设计如下:

在这里插入图片描述

而在此基础上,文中主要做出了以下三部分的内容的修改:

  1. SWA (Sliding Window Attention)
  2. Rolling Buffer Cache
  3. Pre-fill and Chunking

下面,我们来注意考察一下这三部分的内容。

1. SWA (Sliding Window Attention)

首先,文中在Llama的基础上上做出的第一个调整是将attention结构调整为了Sliding Window Attention,其具体结构可以参考下述示意图:

在这里插入图片描述

整体来看,SWA就是在attention的context长度窗口上进行了一下截断,和Linear Attention原理上相差不多,不过Linear Attention只保留了临近几个token的attention,而文中的window长度如上述参数表所示,还是保留了比较长的(4096/8192)。

2. Rolling Buffer Cache

文中做出的第二个改进点在于加入了Rolling Buffer Cache,其具体结构如下:

在这里插入图片描述

整体来说,他就是使用一个有限的cache来存储key-value,从而节省内存空间,使得GPU使用上更有效率,对于模型效果倒是没有影响。

3. Pre-fill and Chunking

文中做出的最后一个调整是关于infer阶段的,具体来说,考虑到prompt往往是固定的,因此文中使用他们称之为Pre-fill and Chunking的方法提前处理掉固定的prompt,将其提前放知道2中提到的cache当中。

其demo示意图如下:

在这里插入图片描述

3. 实验考察 & 结论

给出了Mistral 7B模型的整体模型设计之后,我们来看一下文中针对Mistral 7B模型的效果考察。

1. 基础实验

首先,关于Mistral 7B模型的常规实验考察,文中主要是在以下几个任务上进行的考察:

  1. Commonsense Reasoning (0-shot)
  2. World Knowledge (5-shot)
  3. Reading Comprehension (0-shot)
  4. Math
  5. Code
  6. Popular aggregated results

得到实验结果如下:

在这里插入图片描述

在这里插入图片描述

可以看到,在各类任务当中,Mistral 7B模型基本上是碾压了Llama2 7B甚至13B模型的。

更进一步地,文中绘制了不同size的Llama2模型的效果与Mistral 7B模型进行了比较,并对比了两者的执行效率,得到结果如下:

在这里插入图片描述

可以看到,Mistral 7B模型基本就是纯碾压。

2. Instruction Tuning

除了在预训练模型上的基础考察之外,文中还考察了一下经过了Instruction Tuning之后的Mistral 7B模型的效果,得到结果如下:

在这里插入图片描述

可以看到,在排行榜上,Mistral 7B模型也是干掉了Llama2 13B模型,有一个很好的排名。

3. 安全性分析

最后,文中还考察了一下Mistral 7B模型的安全性,具体包括两方面:

  1. 能否避免对有害问题给出回复
  2. 能否正确区分有害问题

文中首先在175个有害prompt下考察了一下Mistral 7B与其他一些模型的效果,得到结果如下:

在这里插入图片描述

可以看到Mistral 7B效果不输于Llama 13B模型。

另一方面,文中给出了一个kill linux进程的case来说明了一下Mistral 7B可以更准确地识别出问题的有害性,较不容易带来误伤。

在这里插入图片描述

4. 总结 & 思考

综上,这篇短论文提出了Mistral 7B的模型,它是在Llama2基础上的另一个LLM,且宣称获得了更好的效果。

这个模型已经开源了,有空的话后面可以试一下,作为微软重点押注的AGI公司,可以期待一下后续的发展。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/735549.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【牛客】2024牛客寒假算法基础集训营6ABCDEGHIJ

文章目录 A 宇宙的终结题目大意主要思路代码 B 爱恨的纠葛题目大意主要思路代码 C 心绪的解剖题目大意主要思路代码 D 友谊的套路题目大意主要思路代码 E 未来的预言题目大意主要思路代码 G 人生的起落题目大意主要思路代码 I 时空的交织题目大意主要思路代码 J 绝妙的平衡题目…

大数据时代的数据保护:分布式存储系统的七大原则

第一原则:“灾”和“备”,区分容灾切换与数据备份的区别 管理对象 管理对象 防什么? 底层逻辑 核心评价指标 容灾切换 IT环境与业 物理灾难 …

物联网开发 11 ESP32 和 ESP8266 比较有哪些不同?

首先,ESP32和ESP8266都是性价比非常高的Wi-Fi模块,都非常适合用来做物联网(IoT)领域的项目。两款芯片都属于32位处理器,ESP32是双核160MHz至240MHz CPU,而ESP8266是单核处理器,运行频率为80MHz。…

【fastllm】学习框架,本地运行,速度还可以,可以成功运行chatglm2模型

1,关于 fastllm 项目 https://www.bilibili.com/video/BV1fx421k7Mz/?vd_source4b290247452adda4e56d84b659b0c8a2 【fastllm】学习框架,本地运行,速度还可以,可以成功运行chatglm2模型 https://github.com/ztxz16/fastllm &am…

10个高级的 SQL 查询技巧

1.常见表表达式(CTEs) 如果您想要查询子查询,那就是CTEs施展身手的时候 - CTEs基本上创建了一个临时表。 使用常用表表达式(CTEs)是模块化和分解代码的好方法,与您将文章分解为几个段落的方式相同。 请在…

vue ui Starting GUI 图形化配置web新项目

前言:在vue框架里面, 以往大家都是习惯用命令行 vue create 、vue init webpack创建新前端项目,而vue ui是一个可视化的图形界面,对于新手来说更加友好了,不但可以创建、管理、还可以更新vue项目,也可以下载…

LTspice(14) Noise仿真

LTspice(14) Noise仿真 好久没有更新LTspice的教程了,大家想了没? 截止目前LTspice已经更新到24.0.9。界面发生了一些变化,但主要功能并不受影响,新的版本改了UI,找东西更加方便了,界面如下图1所示。 图1…

JAVA笔记15(程序控制结构)

1.程序控制结构 1.1 顺序控制 ​ *介绍:程序从上到下逐行地执行,中间没有任何判断和跳转 1.2 分支控制 ​ *分支控制If - else 1.单分支 ​ *基本语法: if(条件表达式){​ 语句;​ }​ 条件表达式为true时,会执行下面语句…

Leetcode 59.螺旋矩阵Ⅱ

1.题目 2.思路 (借用代码随想录的图) 1.我们将转一圈看作一个循环(1->2->3->4->5->6->7->8 这是一个循环) 2.在这个循环里,我们要画四条边(上右下左) 填充上行从左到右 填…

基于Vue的预约停车位APP设计与实现

目 录 摘 要 I Abstract II 引 言 1 1 相关技术 3 1.1 Vue简介 3 1.2 Node.js简介 3 1.3 JavaScript基本介绍 4 1.4 Ajax基本介绍 4 1.5 本章小结 4 2 软件需求分析与体系结构设计 5 2.1 系统定义用户 5 2.2 系统功能需求描述 5 2.3 系统用例分析 6 2. 3. 1 用户用例分析 6 2.…

深入理解JavaScript内存泄漏:原因与解决方法

🤍 前端开发工程师、技术日更博主、已过CET6 🍨 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 🕠 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》 🍚 蓝桥云课签约作者、上架课程《Vue.js 和 E…

链表的基础

目录 顺序表 链表 需要注意的 链表的优势 单链表的实现 1.单链表的准备 2.单链表的结构体的创建 3.单链表的准备 4.前插 5.后插 6.后删 7.前删 8.任意位置前插 9.任意位置后插 10.删除 11.修改 12.打印 13.释放链表 总说链表难,但我感觉只要认真听讲…

1572.矩阵对角线元素的和

刷算法题: 第一遍:1.看5分钟,没思路看题解 2.通过题解改进自己的解法,并且要写每行的注释以及自己的思路。 3.思考自己做到了题解的哪一步,下次怎么才能做对(总结方法) 4.整理到自己的自媒体平台。 5.再刷重复的类…

(南京观海微电子)——Gamma调试

1.什么是Gamma? Gamma的概念源自于CRT响应曲线,最开始是用于反映显像管的图像亮度与输入电子枪的信号电压之间,非线性关系的一个参数。对于CRT显示器而言,电子流大小影响显示的图像亮度大小,而电子流大小与输入电压间…

力扣每日一题 找出数组的第 K 大和 小根堆 逆向思维(TODO:二分+暴搜)

Problem: 2386. 找出数组的第 K 大和 文章目录 思路复杂度💖 小根堆💖 TODO:二分 暴搜 思路 👨‍🏫 灵神题解 复杂度 时间复杂度: 添加时间复杂度, 示例: O ( n ) O(n) O(n) 空间复杂度: 添加空间复杂…

【最新版】ChatGPT/GPT4科研应用与AI绘图论文写作(最新增加Claude3、Gemini、Sora、GPTs技术及AI领域中的集中大模型的最新技术)

2023年随着OpenAI开发者大会的召开,最重磅更新当属GPTs,多模态API,未来自定义专属的GPT。微软创始人比尔盖茨称ChatGPT的出现有着重大历史意义,不亚于互联网和个人电脑的问世。360创始人周鸿祎认为未来各行各业如果不能搭上这班车…

使用 Python 读取 NetCDF 数据

栅格通用数据格式(NetCDF)通常用于存储多维地理数据。这些数据的一些示例包括温度、降水量和风速。NetCDF 中存储的变量通常每天在大片(大陆)区域进行多次测量。由于每天进行多次测量,数据值会快速积累并且变得难以处理。当每个值还分配给一个地理位置时,数据管理会更加复…

springboot257基于SpringBoot的中山社区医疗综合服务平台

中山社区医疗综合服务平台的设计与实现 摘 要 传统信息的管理大部分依赖于管理人员的手工登记与管理,然而,随着近些年信息技术的迅猛发展,让许多比较老套的信息管理模式进行了更新迭代,居民信息因为其管理内容繁杂,管…

Solidity Uniswap V2 价格预言机

预言机是连接区块链与链下服务的桥梁,这样就可以从智能合约中查询现实世界的数据。Chainlink 是最大的oracle网络之一,创建于 2017 年,如今已成为许多 DeFi 应用的重要组成部分。https://github.com/XuHugo/solidityproject Uniswap 虽然是链…

Unity 使用HyBirdCLR调用Newtonsoft.json报错问题

查了老半天,原来是这里的问题 官方解释 解释: 在Unity的IL2CPP Code Generation中,"Faster runtime"和"Faster (smaller) builds"是两种不同的优化设置选项,它们分别影响着运行时性能和构建大小。下面是它们…