微软发布Phi-3系列语言模型:手机端的强大AI助手

大模型(LLMs)在处理复杂任务时展现出的巨大潜力,但却需要庞大的计算资源和存储空间,限制了它们在移动设备等资源受限环境中的应用。微软公司最新发布的Phi-3系列语言模型,以其卓越的性能和小巧的体积,打破了这一局限,为移动AI领域带来了革命性的变革。

Phi-3系列模型的优势在于它们能够在保持较小模型体积的同时,提供与大型模型相媲美的语言处理能力。这一成就得益于几个关键的技术突破和创新:

高效的训练数据:Phi-3系列模型采用了经过精心筛选和优化的训练数据集,这些数据不仅包括公开可用的网络数据,还结合了由LLM生成的合成数据,从而在较小的模型规模上实现了高性能。

先进的架构设计:Phi-3-mini模型采用了transformer解码器架构,并引入了LongRope技术来扩展上下文长度,使其能够处理更长的文本序列。

优化的存储和计算效率:通过量化技术和块稀疏注意力模块,Phi-3-mini能够在保持性能的同时,大幅减少模型所需的存储空间和计算资源。

强大的多模态能力:Phi-3-vision模型不仅能够处理文本,还能够理解和生成与图像相关的文本,这为图像和文本的联合理解提供了新的可能性。

负责任的AI实践:微软在Phi-3系列模型的开发中,遵循了负责任的AI原则,通过后训练阶段的安全对齐和红队测试,确保了模型的安全性和可靠性。

移动设备上的本地部署:Phi-3-mini的小巧体积使其能够轻松部署在现代智能手机上,实现完全离线运行,为用户提供了随时随地的智能助手。

Phi-3-mini 模型

Phi-3-mini 是一个具有3.8亿参数的语言模型,它在3.3万亿个token上进行了训练。这个模型采用了transformer解码器架构,具备4K的默认上下文长度,并通过LongRope技术可以扩展到128K的上下文长度。Phi-3-mini 的设计允许它在保持小巧体积的同时,实现与大型模型相媲美的性能。

phi-3-small模型中的blocksparse attention的玩具插图。它展示了具有2个局部块和3的垂直跨度的blocksparse attention。表格显示了查询标记在块8中所关注的键/值。颜色编码说明了本地块(蓝色)、远程/垂直块(橙色)和被跳过的块(灰色)

模型的训练采用了一种创新的方法,使用了经过严格筛选的公开网络数据和合成数据。这种数据筛选策略专注于提升模型的通用知识和语言理解能力,同时在第二阶段的训练中融入了逻辑推理和专业技能的教学。

接近“数据最优范围”的扩展法则,从左到右分别是phi-1.5、phi-2、phi-3-mini、phi-3-small与Llama-2系列模型(7B、13B、34B、70B),它们都是在相同的固定数据上训练的。图表绘制了MMLU误差的对数与模型大小的对数

Phi-3-mini 进一步优化了模型的对齐,以增强其在对话格式下的鲁棒性、安全性。此外,模型使用了与Llama-2相似的块结构,并采用了相同的分词器,这使得为Llama-2开发的包可以轻松适配到Phi-3-mini。模型具备3072的隐藏维度、32个注意力头和32层,使用bfloat16精度进行了训练。

Phi-3-mini 的小巧体积使其可以量化到4位,仅占用大约1.8GB的内存。在iPhone 14的A16 Bionic芯片上进行的测试显示,该模型能够以每秒超过12个token的速度在设备上本地运行,且完全离线。为了处理长上下文任务,开发了Phi-3-mini的长上下文版本,其上下文长度限制扩展到了128K。这个版本的模型在质量上与4K长度的版本相当,但在处理长文本方面更为出色。

iPhone上使用A16 Bionic芯片本地运行的4位量化phi-3-mini,每秒生成超过12个token

Phi-3-mini 的后训练包括两个阶段:监督微调(SFT)和直接偏好优化(DPO)。SFT使用高度策划的高质量数据,涵盖多个领域,而DPO则利用聊天格式数据、推理和负责任的AI(RAI)努力,引导模型远离不良行为。

基准测试

Phi-3-mini 在多个标准的开源基准测试中进行了评估,这些测试旨在衡量模型的推理能力,包括常识推理和逻辑推理。测试结果与phi-2、Mistral-7b-v0.1、Mixtral-8x7b、Gemma 7B、Llama-3-instruct8b 和 GPT-3.5 等模型进行了比较。所有报告的数字都是通过相同的管道生成的,以确保数字的可比性。

使用了少样本提示(few-shot prompts),在温度为0的条件下评估模型。使用的提示和样本数量是微软内部用于评估语言模型的工具的一部分。特别是,对于phi-3模型,没有对管道进行优化。

测试结果显示 Phi-3-mini 在各种基准测试中的表现与其它模型相比具有竞争力。例如,在MMLU(多项语言理解)基准测试中,Phi-3-mini 达到了68.8% 的准确率,而其他模型的准确率从56.3% 到71.4% 不等。在HellaSwag、ANLI、GSM-8K 等多个测试中,Phi-3-mini 均展现出了较高的性能。

Phi-3-mini 与其扩展模型 Phi-3-small 和 Phi-3-medium 相比,在多数基准测试中表现稍逊,这与它们的参数规模相一致。Phi-3-small 在 MMLU 中的得分为75.7%,而 Phi-3-medium 则为78.0%。类似地,在 MT-bench 测试中,Phi-3-mini 得到了8.38分,而 Phi-3-small 和 Phi-3-medium 分别得到了8.7和8.9分。

虽然在多任务学习上表现出色,但受限于规模,它在存储事实知识、多语言处理和高级推理方面存在局限。通过结合搜索引擎和多语言数据,以及针对性的后训练优化,可以缓解这些限制,但偏见和安全问题仍需进一步研究和改进。

Phi-3-Vision 模型

Phi-3-Vision 是一个多模态模型,拥有 4.2 亿参数,设计用于处理图像和文本提示,并生成文本输出。该模型由两部分组成:图像编码器(CLIP ViT-L/14)和变换器解码器(phi-3-mini-128K-instruct)。通过动态裁剪策略,模型能够适应高分辨率和不同宽高比的图像,将输入图像分割成 2D 块阵列,再将块的标记连接起来以代表整个图像。

Phi-3-Vision在自然图像理解和推理方面的能力

Phi-3-Vision 模型的预训练使用了多样化的数据集,包括图像-文本文档、图像-文本对、从 PDF 文件的光学字符识别(OCR)派生的合成数据,以及图表/表格理解的数据集。预训练的目标是在文本标记上预测下一个标记,而忽略与图像标记相关的任何损失。

Phi-3-Vision 包含两个后训练阶段:监督微调(SFT)和直接偏好优化(DPO)。SFT 利用文本 SFT 数据集、公共多模态指导调整数据集以及我们自己构建的大规模多模态指导调整数据集,覆盖自然图像理解、图表/表格/图解理解/推理、PowerPoint 理解以及模型安全性等多样化领域和任务。

基准测试

Phi-3-Vision 模型在九个学术基准测试中进行了评估,这些测试覆盖科学、图表和通用知识三个领域,旨在衡量模型对视觉和文本输入的推理和感知能力。与多个基线模型相比,Phi-3-Vision 展现了其竞争力。评估采用了公平的设置,模拟了普通用户与多模态模型的交互,未使用特定提示或图像预处理。尽管评估条件一致,但由于不同的评估参数,Phi-3-Vision 的结果可能与已发布的基线模型结果有所差异。这为模型的实际应用提供了有价值的见解,并指出了进一步优化的方向。

Phi-3-Vision 模型在多个公共多语言模型(MLLM)基准测试上的比较结果

尽管 Phi-3-Vision 在多个领域表现出色,但已识别出某些限制,特别是在需要高水平推理能力的问题上。此外,模型有时会生成无根据的输出,使其在金融等敏感领域可能不可靠。为了解决这些问题,研究者计划在未来的后训练中纳入更多关注推理和幻觉相关的 DPO 数据。从负责任的 AI 角度来看,尽管安全后训练取得了显著进展,Phi-3-Vision 偶尔未能避免回答有害或敏感的查询,例如解读特定类型的验证码和描述包含虚假信息或幻觉的诈骗图像。这个问题部分源于在正常指导调整数据集的训练过程中获得的能力,如 OCR,这可以被视为帮助性和无害性之间的权衡。

论文链接:https://arxiv.org/abs/2404.14219

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/36398.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

c++习题01-ljc的暑期兼职

目录 一,题目描述 二,思路 三,伪代码 四,流程图 五,代码 一,题目描述 二,思路 1,根据题目要求需要声明4个变量:a,b,c,d ;牛奶价格a,活动要求b&…

柯桥商务英语培训under是“在下面”,dog是“狗”,那underdog是什么意思?

英语中有很多单词 拆开看都认识 但合在一起意思就变了 就比如这个表达:underdog 大家都知道:under是下面,dog是狗 那么underdog是啥意思呢? 在小狗下面? 还是活得连狗都不如? 当然没有那么简单 但我…

flask 接收vuejs element el-upload传来的多个文件

el-upload通过action指定后端接口,并通过name指定传输的文件包裹在什么变量名中 <el-uploadclass="upload-demo"dragaction="https://ai.zscampus.com/toy/upload"multiplename="fileList":limit="10"accept=

Linux-笔记 使用SCP命令传输文件报错 :IT IS POSSIBLE THAT SOMEONE IS DOING SOMETHING NASTY!

前言 使用scp命令向开发板传输文件发生报错&#xff0c;报错见下图; 解决 rm -rf /home/<用户名>/.ssh/known_hosts 此方法同样适用于使用ssh命令连接开发板报错的情况。 参考 https://blog.csdn.net/westsource/article/details/6636096

【Java Web】Axios实现前后端数据异步交互

目录 一、Promise概述 二、Promise基本用法 三、async和await关键字 四、Axios介绍 4.1 Axios基本用法 4.2 Axios简化用法之get和post方法 五、Axios拦截器 六、跨域问题处理 一、Promise概述 axios是代替原生的ajax实现前后端数据交互的一套新解决方案&#xff0c;而axios使用…

Geotools系列说明之入门介绍与坐标系转换说明

Geotools介绍 借用官网的介绍 GeoTools is an open source Java library that provides tools for geospatial data 就是提供java处理地理空间的工具详细内容请参考官网 Geotools环境搭建 我们这里只讨论Geotools在Maven中和Idea的项目实战&#xff0c;至于Geotools的服务端…

Filter and Search

应用筛选器时&#xff0c;“视图”仅显示符合当前筛选条件的记录。您可以根据一列或多列筛选数据。如果针对多个列进行筛选&#xff0c;则网格会在列筛选器之间应用AND逻辑运算符。 GridControl-Grid View 大多数DevExpress数据感知组件&#xff08;数据网格、树列表、垂直网…

讯飞星火企业智能体平台正式发布,打造每个岗位专属AI助手

大力财经 | 发布 讯飞星火V4.0来了&#xff01;6月27日&#xff0c;科大讯飞在北京发布讯飞星火大模型V4.0及相关落地应用。讯飞星火V4.0七大核心能力全面提升&#xff0c;整体超越GPT-4 Turbo&#xff0c;在8个国际主流测试集中排名第一&#xff0c;国内大模型全面领先。 大模…

台灯的功能作用有哪些?分享好用的护眼灯!看完就知道台灯怎么选

在当今时代&#xff0c;学生们长时间地沉浸于平板、手机、电脑等电子设备中&#xff0c;这些设备的屏幕往往伴随着频闪和蓝光辐射&#xff0c;这无疑对视力健康构成了潜在威胁。家长们日益关注孩子的护眼养眼问题&#xff0c;因为视力疲劳和眼部疾病不仅会降低个体的生活质量&a…

已解决:macOS Navicat保存密码失败(Failed to save password Error code: -34018),错误代码34018

Navicat 16 包括 Navicat15诸多版本都存在着问题&#xff0c;还要我去搞什么钥匙串访问&#xff0c;真麻烦&#xff01; Failed to save password Error code: -34018别搞那些有的没的方案&#xff01;就是TNT没 PJ 完美才导致这个问题出现&#xff0c;现在换了个PJ好的16.3.7版…

哈希表 | 哈希查找 | 哈希函数 | 数据结构 | 大话数据结构 | Java

&#x1f64b;大家好&#xff01;我是毛毛张! &#x1f308;个人首页&#xff1a; 神马都会亿点点的毛毛张 &#x1f4cc;毛毛张今天分享的内容&#x1f586;是数据结构中的哈希表&#xff0c;毛毛张主要是依据《大话数据结构&#x1f4d6;》的内容来进行整理&#xff0c;不…

上午写的博客,下午就上了bing首页,惊不惊喜,意不意外

今天上午写了一篇《用免费的“山水博客”来管理你的离线文章》的博客&#xff0c;没想到下午在必应就搜到了&#xff0c;而且还是首页第四个。 不由的让人感概&#xff0c;以前写了那么多的博客&#xff0c;想将排名排前点&#xff0c;在网上找了不少秘籍&#xff0c;都没成功&…

神经网络学习笔记9-简单的反向传播和线性回归

tensor在pytorch中是一个非常重要的类型 假如需要计算梯度&#xff0c;就将tensor中 requires_grad设为true loss是一个张量&#xff0c;在做运算时构建运算图&#xff0c;因此不要直接进行&#xff0c;会将将梯度存入w&#xff0c;当反向传播完成 后&#xff0c;该计算图会…

计算机的错误计算(十四)

摘要 解读 GPU和CPU计算上的精度差异&#xff1a;GPU 的 3个输出的相对误差分别高达 62.5%、50%、62.5%。 例1. 计算下列两个矩阵的乘积&#xff1a; 显然&#xff0c;其结果为第一列&#xff1a; 这个结果是准确的。 例2. 已知上面 3 个矩阵是由下面代码产生或输出&…

奔驰汽车的通信如此固若金汤的原因

随着摄像系统、距离控制、航线保持等功能以及制动辅助系统、制动力分配系统、车身侧倾干预与缓解系统等功能的飞速发展,汽车的系统功能之间已经不再独立,而是呈现互相合作的关系,各功能之间的无缝集成更是各大整车厂追求的目标。俗话说,外练筋骨皮,内练一口气,有了各式安…

HexPlane代码复现(十几分钟就复现成功的一篇论文代码!!!!!)

https://caoang327.github.io/HexPlane/ 一、 python setup.py develop命令用不了了 running develop /home/uriky/anaconda3/envs/hexplane/lib/python3.8/site-packages/setuptools/command/easy_install.py:144: EasyInstallDeprecationWarning: easy_install command is d…

ISO 50001能源管理体系:激活绿色动能和共塑可持续发展

在当今全球化加速和工业化水平不断提高的背景下&#xff0c;能源消费呈现出前所未有的增长趋势。然而&#xff0c;能源资源的有限性、能源价格的波动以及能源消费对环境造成的影响&#xff0c;尤其是温室气体排放导致的全球气候变化问题&#xff0c;已经成为全球关注的焦点。为…

怎么在必应bing上投放搜索广告?

搜索引擎已成为企业获取潜在客户、提升品牌曝光度的关键平台&#xff0c;微软必应&#xff08;Bing&#xff09;以其庞大的用户基数、精准的定位能力以及与微软生态系统的深度整合&#xff0c;为企业提供了极具价值的广告投放渠道。云衔科技助力企业实现必应bing广告的精准投放…

私接路由器导致部分终端(电脑、手机等)无法上网问题分析

【1】私接路由器场景 某公司办公网可以上互联网&#xff0c;网络终端通过公司路由器上的DHCP服务器自动获取IP地址&#xff0c;对终端设备接入没有做Mac地址绑定等策略限制&#xff0c;交换机也没有划分vlan。员工张三所在办公室网口太少或者WiFi信号差&#xff0c;私自找了一台…

前端实现 海浪(波浪)进度条效果(支持自定义长度;调节速度,2s缓冲结束)

实现海浪进度条 文章目录 实现海浪进度条效果图如下(投入使用的版本)背景和过程一、调试和探索过程(下面都会给出来对应代码)二、类似Element-plus的进度条样式1. CSS的样式如下2. HTML结构如下 二、电涌效果的进度条如下1. CSS的样式如下2. HTML的结构如下:3. JavaScript代码如…