极客说|微软 Phi 系列小模型和多模态小模型

作者:胡平 - 微软云人工智能高级专家

「极客说」 是一档专注 AI 时代开发者分享的专栏,我们邀请来自微软以及技术社区专家,带来最前沿的技术干货与实践经验。在这里,您将看到深度教程、最佳实践和创新解决方案。关注「极客说」,与行业顶尖专家一起探索科技的无限可能!

在人工智能领域,虽然大模型(Large language model)在理解和生成自然语言方面表现出了很大的优势,在问答、翻译、文本生成等多种任务中展现了惊人的能力,但是随着模型规模的不断扩大,训练和运行这些大模型所需要的计算资源也日益紧张,而且端侧的设备上的算力通常都是有限的,这在一定程度上限制了他们的广泛使用。我们的日常生活中存在着非常多的端侧设备,智能化家具家电,智能座舱等,都对端侧的模型的使用提出了要求。在这样的背景下,小模型(Small Language Models, SLMs)的研究就显得非常重要。小模型以其相对较小的规模和较低的计算算力需求,为资源有限的端侧设备环境提供了一种可行的解决方案。微软在小模型方面也持续进行了很长时间的研究,推出了 Phi 系列模型,证明了即使在较小的模型规模下,也能够实现强大的语言理解能力,生成能力,和多模态理解能力。

Phi-1


Phi-1 模型是这个系列的起点,它是一个基于 Transformer 架构的模型,拥有 1.3 亿参数。尽管其规模相对较小,但 Phi-1 在 Python 编程任务上展现出了令人印象深刻的性能,特别是在 HumanEval 和 MBPP 基准测试中,它的表现接近或超过了当时一些大型模型。

Phi-1.5


Phi-1.5 模型在 Phi-1 的基础上进行了进一步地优化和扩展。它同样拥有 1.3 亿参数,但在训练数据上进行了重大改进,引入了专门用于教授模型常识推理和通用知识的新数据源。这些数据源包括科学、日常活动和心智理论等领域的教科书内容,以及从互联网上筛选出的高质量数据。Phi-1.5 在自然语言任务上的表现与比其大五倍的模型相当,甚至在更复杂的推理任务上超越了大多数非前沿的 LLMs。

Phi-2


Phi-2 的参数数量有 2.7 亿,模型通过创新的知识转移技术,在 Phi-1.5 的基础之上,通过从 Phi-1.5 中嵌入知识,加速了训练过程并提升了性能。这种知识转移方法不仅加速了训练过程的收敛,而且在基准测试中显著提高了 Phi-2 的得分。在 Phi2 提出的时间节点,在多个复杂基准测试中,Phi-2 能够匹配或超越比其规模大25倍的模型。此外,Phi-2 在安全性和偏见方面也有所改进。尽管它没有经过人类反馈的强化学习对齐(RLHF)或指令微调,但与经过对齐的现有开源模型相比,Phi-2 在毒性和偏见方面的行为表现得更好。这归功于其定制的数据筛选技术,这种技术有助于减少模型生成有害内容的可能性。

 

Phi-3 系列


Phi3 系列有三个不同量级的小模型,分别叫做 Phi-3 mini, Phi-3 small 和 Phi-3 medium。

Phi-3-mini

Phi-3-mini 有 3.8B 的参数,3.3T token 的训练数据。它标配 4K 上下文,使用 LongRope 位置嵌入可拓展至 128K,即 Phi-3-mini-128k。在多个学术基准测试中,Phi-3-mini 性能接近或等同于市场上的大型模型,例如在 MMLU 测试中得分为 69%,在 MT-bench 测试中得分为 8.38 分。将 Phi-3-mini 量化(quantize)为 4-bits,其所需存储空间约为 1.8GB。测试中量化版 Phi-3-mini 在 iPhone 14 上的推理速度可达到 12 tokens/s。同时也可以将它部署在 Android 或者 HarmonyOS 操作系统的手机上,如下图4所示就是用 Ollama 在 HarmonyOS 上部署的量化版本的 Phi-3-mini 模型做问答任务时的截图。

Phi-3-small

Phi-3-small-7B 是 Phi3 系列新增的一个更大规模参数版本的Phi模型,参数 7.0B,但是 tokenizer 换成了 tiktoken,使之有更好的多语言能力,词汇表大小也拓展到了 100352,默认上下文长度是 8K,模型也有分组查询注意力机制(Group Query Attention,GQA),模型的数据训练量达到了 4.8万亿 tokens。

Phi-3-medium

Phi-3-medium 的参数有 14B,架构与最小的 Phi-3-mini-3.8B 相同,但是训练的 epoch 更多,训练的数据量和 Phi-3-small 一样,4.9万亿 tokens。

Phi-3-vision

此外,Phi3 系列还包含了一个 4.2B 参数的多模态模型,叫做 Phi-3-vision,融合了视觉和语言的功能。它是 Phi 系列中的首个多模态模型,能够结合文本和图像进行推理,从图像中提取和推理文本,还能优化对图表和图像的理解,用于生成见解和回答,在小型模型中提供了出色的语言和图像推理质量。

将 Phi-3-vision 部署在 PC 的 CPU 上,采用的是 https://huggingface.co/microsoft/Phi-3-vision-128k-instruct-onnx  的模型版本,这里,通过 RTN 的 int4 量化得到 CPU 上运行的 onnx 版本的模型,其中,Phi-3-v-128k-instruct-text.onnx.data 有 2.33G,Phi-3-v-128k-instruct-vision.onnx.data 有 445M。用它来进行多模态的问答的测试结果如图5所示。这里给了模型带有雪山的汽车的图片,让 Phi-3-vision 根据画面进行描述,可以看到右侧生成的结果很好的描述了雪山的细节和车的细节。

此外,我们还对驾驶员有没有系安全带进行了测试,如图6和图7所示。我们分别选取了没有系安全带的司机和系安全带的司机来作为我们的输入图像,而且考虑到司机坐姿的不同,图像拍摄角度的不同和车型的不同,这里我们分别选取了有代表性的两类,公共汽车司机和小轿车司机。然后,我们以此作为输入,分别让 Phi-3-vision 来进行回答,图片中的司机是否系了安全带。这里为了验证模型的有效性,我们还变化了提问的 Prompt 的写法,一种写法是:Is the person in the picture wearing a seat belt? 另一种 Prompt 的问法是:Is there a seat belt?图6 和图7 的下面是通过 Phi-3-vision 模型得到的回答的结果,分别给出了公共机车司机没有系安全带,和小轿车司机系了安全带的正确回答。

Figure 4. 手机上跑 Phi-3-mini 做问答任务的截图

Figure 5. PC 上用 Phi-3-Vision 进行图像的问答测试

Figure 6. PC 上用 Phi-3-vision 进行公交司机是否系安全带的图像问答测试

Figure7. PC 上用 Phi-3-visio 进行轿车司机是否系安全带的图像问答测试

Phi-3.5 系列


Phi-3.5 系列小模型是最新一代的 Phi 系列小模型,该系列包括了 Phi-3.5-mini、Phi-3.5-MoE 和 Phi-3.5-vision 三个模型,分别针对轻量级推理、混合专家系统和多模态任务设计。Phi 3.5 支持多种语言,包括阿拉伯语、中文、英语、法语、德语、日语、韩语和西班牙语等。它使用了组查询注意力机制,每个注意力头的 KV 缓存中使用 4 个查询共享 1 个键。为了进一步提高训练和推理速度,它使用了块稀疏注意力模块,能根据不同的稀疏模式有效地划分上下文,减少 KV 缓存的使用量。

Phi-3.5-mini

Phi-3.5-mini 指令微调模型有 3.8B 的参数,该模型专为遵守指令而设计,支持快速推理任务。它支持 128K 上下文,适合处理长文本数据。适合在内存或计算资源受限的环境,来执行代码生成、数学问题求解和基于逻辑的推理任务等。在多语言和多轮对话任务中表现出色,并且在 RepoQA 基准测试中,测量“长上下文代码理解”的性能超越了其他类似大小的模型,如 Llama-3.1-8B-instruct 和 Mistral-7B-instruct。

Phi-3.5-MoE

Phi-3.5-MoE 有大约 41.9B 的参数,该模型采用了混合专家架构,也是微软Phi系列中的首个 MoE 模型,拥有 6.6B 活动激活参数,将多个不同类型的模型组合成一个,每个模型专门处理不同的任务。它支持 128k token 的上下文长度,适合处理复杂的多语言和多任务场景。在代码、数学和多语言理解方面表现出色,在 5-shot MMLU (大规模多任务语言理解)基准测试中,在 STEM、人文学科、社会科学等多个学科的不同层次上超越了 GPT-4o mini。

Phi-3.5-vision

Phi-3.5-vision 模型拥有 4.2B 的参数,集成了文本和图像处理功能,使其能够处理多模态数据。适用于图像理解、光学字符识别、图表和表格理解以及视频摘要等任务。由于支持 128K 标记上下文长度,特别擅长处理复杂的多帧视觉任务。Phi-3.5-vision 模型使用合成数据集和筛选后的公开数据集进行训练,重点放在高质量、推理密集的数据上,对于 TextVQA 和 ScienceQA 等任务,提供高质量的视觉分析。

基于 GPU 的推理部署和测试——以 Phi-3.5-vision 为例 


接下来,我们就以 Phi-3.5-vision 为例来实现一下它基于 GPU 的推理部署和测试。

先来看一下 Phi-3.5-vision 模型在 GPU 的部署。这里我们在 Azure Machine Learning 里创建了一台 A100 的 GPU,它已经自带了 cuda 和 anaconda 的环境配置。部署的时候,第一步先安装 swift,用如下的命令:

git clone https://github.com/modelscope/ms-swift.git
cd ms-swift
pip install -e .[llm]

之后,就可以用如下命令运行 Phi3_5-vision-instruct 的推理模型了:

CUDA_VISIBLE_DEVICES=0 swift infer --model_type phi3_5-vision-instruct --use_flash_attn false

推理模型运行起来之后,如图8所示。之后,就可以和模型进行问答的交互了,譬如,我们问它,who are you? 得到结果如图9所示,它会回答:I am Phi, an AI developed by Microsoft to assist with providing information, answering questions, and helping users find solutions to their queries. How can I assist you today? 这是我们和它进行文本问答的结果。

Figure 8. Phi3_5-vision-instruct 推理时的运行界面

Figure 9. 与部署的 Phi3_5-vision-instruct 模型进行文本问答的界面

我们也可以利用它的多模态能力,输入图片,得到回答。这里先用 +prompt 的输入格式,输入我们的文本提示词,同时提示模型我们还要输入图片,之后再输入图片的地址。图片地址可以是 http 链接,也可以是本地的图片路径。这里我们测试了多张不同类型的图片如图10、11所示。图10中,对不同的网络上的图片,一张是猫的,一张是兔子围着一盆饺子的,进行了详细的描述。左边是原图,右边是用 Phi3_5-vision-instruct 进行提问,输入图片网址链接,和得到结果的截图。图11是对于数学运算来进行计算的结果,可以看到对于整数的乘法的三个运算,结果都是正确的。当用 A100 的 GPU 跑 Phi3_5-vision-instruct 进行推理的时候,大概会产生 10G 的 GPU 显存占用,如图12所示。

Figure 10. 用 Phi3_5-vision-instruct 对不同的图片进行描述的多模态交互用例

Figure 11. 用 Phi3_5-vision-instruct 对图片中的数学公式进行计算的测试用例

 

Figure 12. 用 Phi3_5-vision-instruct 在 GPU 上做推理的时候的 GPU 占用

资料推荐


智能 GitHub Copilot 副驾驶® 提示和技巧icon-default.png?t=O83Ahttps://info.microsoft.com/GC-DevOps-CNTNT-FY25-08Aug-23-Smart-GitHub-Copilot-Tips-and-Tricks-SRGCM12801_LP01-Registration---Form-in-Body.html

Azure OpenAI 生成式人工智能白皮书icon-default.png?t=O83Ahttps://info.microsoft.com/GC-AzureAI-CNTNT-FY25-08Aug-21-Azure-OpenAI-Generative-Artificial-Intelligence-White-Paper-SRGCM12789_LP01-Registration---Form-in-Body.html

利用 AI 和 DevOps 重新定义开发人员体验icon-default.png?t=O83Ahttps://info.microsoft.com/ww-landing-redefining-the-developer-experience.html?lcid=ZH-CN

SAP on Microsoft Cloudicon-default.png?t=O83Ahttps://info.microsoft.com/GC-SAP-CNTNT-FY25-08Aug-27-SAP-on-Microsoft-Cloud-SRGCM12804_LP01-Registration---Form-in-Body.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/891949.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

React+redux项目搭建流程

1.创建项目 create-react-app my-project --template typescript // 创建项目并使用typescript2.去除掉没用的文件夹,只保留部分有用的文件 3.项目配置: 配置项目的icon 配置项目的标题 配置项目的别名等(craco.config.ts&…

HTML+CSS+JS制作高仿小米官网网站(内附源码,含6个页面)

一、作品介绍 HTMLCSSJS制作一个高仿小米官网网站,包含首页、商品详情页、确认订单页、订单支付页、收货地址管理页、新增收获地址页等6个静态页面。其中每个页面都包含一个导航栏、一个主要区域和一个底部区域。 二、页面结构 1. 顶部导航栏 包含Logo、主导航菜…

obs directx11

创建逻辑 obs 在windows 下分为Opengl 和 directx 两种渲染模式,默认使用的是directx ,兼容性更好; 代码路径: E:\opensrc\obs_studio_src\obs-studio\UI\obs-app.cpp 选择渲染模式 const char* OBSApp::GetRenderModule() con…

QT实现 端口扫描暂停和继续功能 3

上篇QT给端口扫描工程增加线程2-CSDN博客 为按钮pushButton_Stop添加clicked事件,功能为暂停扫描,并在暂停后显示继续按钮,点击继续按钮之后继续扫描 1.更新UI 添加继续按钮 点击转到槽则会自动声明 2. 更新 MainWindow.h 需要新增的部分…

nginx-限流(请求/并发量)

一. 简述: 在做日常的web运维工作中,难免会遇到服务器流量异常,负载过大等情况。恶意攻击访问/爬虫等非正常性请求,会带来带宽的浪费,服务器压力增大,影响业务质量。 二. 限流方案: 对于这种情…

分布式ID生成-雪花算法实现无状态

雪花算法这里不再赘述,其缺点是有状态(多副本隔离时,依赖手动配置workId和datacenterId),代码如下: /*** 雪花算法ID生成器*/ public class SnowflakeIdWorker {/*** 开始时间截 (2017-01-01)*/private st…

Edge SCDN高效防护与智能加速

当今数字化时代,网络安全和内容分发效率已成为企业业务发展的关键因素。酷盾安全推出了Edge SCDN解决方案,为企业提供全方位的安全防护和高效的内容分发服务。 一、卓越的安全防护能力 1.DDoS攻击的精准防御:Edge SCDN具备强大的DDoS攻击检测…

在vscode上

第一步 安装插件 (1)从菜单处打开vscode,之后点击左侧“拓展”,在搜索栏输入“platform”,安装这个插件。 注:安装过程可能会慢一点,可以尝试连接自己的热点 (2)安装完…

产品心、用户脑、押重注......解读vivo穿越周期之道

出品 | 何玺 排版 | 叶媛 国内科技企业中,vivo绝对算个“异类”。给人以平和谦逊、稳健踏实的印象,却极具实力! 回望vivo发展历程,这家拥有近30年历史的超大型全球化产业科技生态型公司,从功能机到智能机一路走来&am…

jenkins入门4 --window执行execute shell

1、启动关闭jenkins 在Windows环境下,如果你需要关闭Jenkins服务,可以通过以下几种方式: 1、使用Windows服务管理器: 打开“运行”对话框(Win R),输入services.msc,然后回车。 在服…

矩阵碰一碰发视频源码搭建全解析,支持OEM

在数字化营销与互动体验需求日益增长的当下,矩阵碰一碰发视频功能以其独特的交互性和高效的信息传播能力,正逐渐成为吸引用户、提升品牌影响力的有力工具。本文将深入探讨如何搭建矩阵碰一碰发视频的源码,帮助开发者实现这一创新功能。 一、技…

软件确认测试和验收测试有什么区别?

在当今快速发展的软件行业中,软件确认测试与验收测试是软件产品生产周期中的重要步骤,但很多人容易混淆,那么这两者之间究竟有什么区别呢? 软件确认测试是一个旨在确保软件产品符合用户需求规格的过程。它对软件的功能、性能和可用性进行深…

cat命令详解

cat 是 Linux/Unix 中的一个非常常用的命令,主要用于 连接 文件并显示文件内容。它的名称来源于 concatenate(连接),不仅可以查看文件内容,还能将多个文件合并为一个文件,或用作其他数据流操作。 以下是对 …

[sdx12] Qualcomm SDX12查看基线版本

about.html文件 Build部分 Product SDX12.LE.1.0-00263-NBOOT.NEFS.PROD-1.90789.1 Distribution SDX12.LE.1.0|AMSS|Standard|OEM: Build Components部分 从以上截图可以看到以下模块的版本号及格式 BOOT 基线版本号 BOOT.BF.3.1.c3-00010-SDX12AAAAANAZB-1 Distr…

基于CLIP和DINOv2实现图像相似性方面的比较

概述 在人工智能领域,CLIP和DINOv2是计算机视觉领域的两大巨头。CLIP彻底改变了图像理解,而DINOv2为自监督学习带来了新的方法。 在本文中,我们将踏上一段旅程,揭示定义CLIP和DINOv2的优势和微妙之处。我们的目标是发现这些模型…

LS1046 XFI网口接近10Gbps

硬件平台: CPU LS1046A 1.8GHZ 软件平台: LINUX 4.19.32 BUILDROOT 测试软件: ipferf 整个过程比较曲折,网口默认不能达到这个速度,只有2Gbps以内。需要FMC配置后才能达到9.4Gbps。

一则问答:211集成电路专业,转互联网还是FPGA?

问: 我于2016年毕业于西安电子科技大学集成电路设计与集成系统专业。毕业后,我在一家不知名私企从事PCB绘制和单片机调试工作,持续了一年半。之后,我受律师职业光鲜外表的吸引,尝试了两年的司法考试,但未能…

嵌入式linux系统中QT信号与槽实现

第一:Qt中信号与槽简介 信号与槽是Qt编程的基础。因为有了信号与槽的编程机制,在Qt中处理界面各个组件的交互操作时变得更加直观和简单。 槽函数与一般的函数不同的是:槽函数可以与一个信号关联,当信号被发射时,关联的槽函数被自动执行。 案例操作与实现: #ifndef …

Java Web开发进阶——Spring Boot基础

Spring Boot是基于Spring框架的新一代开发框架,旨在通过自动化配置和简化的开发方式提升生产效率。它将复杂的配置抽象化,让开发者专注于业务逻辑实现,而无需关注繁琐的基础配置。 1. Spring Boot简介与优势 Spring Boot 是 Spring 家族中的…

探索 ES6 Set:用法与实战

🤍 前端开发工程师、技术日更博主、已过CET6 🍨 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 🕠 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》 🍚 蓝桥云课签约作者、上架课程《Vue.js 和 E…