介绍Phi-3:微软重新定义小型语言模型(SLM)的可能性

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

微软最近推出了名为Phi-3的开放式AI模型家族,这是一系列最具性价比的小型语言模型(SLM)。Phi-3模型在各种语言、推理、编码和数学基准测试中的表现超越了同等大小甚至更大型号的模型。此次发布扩展了为客户提供高质量模型的选择,使他们在构建和开发生成式AI应用程序时有更多的实用选择。

从今天开始,3.8亿参数的Phi-3-mini模型已在微软Azure AI Studio、Hugging Face和Ollama平台上提供。https://huggingface.co/collections/microsoft/phi-3-6626e15e9585a200d2d761e3

Phi-3-mini提供两种上下文长度变体——4K和128K令牌。它是首个支持高达128K令牌上下文窗口的同类模型,且对质量的影响很小。它经过指令调优,训练以遵循反映人们正常沟通的各种指令类型,确保模型开箱即用。它在Azure AI上可用,利用部署-评估-微调工具链,并在Ollama上可供开发者在本地笔记本电脑上运行。它针对ONNX运行时进行了优化,支持Windows DirectML,并具有跨平台支持,包括图形处理单元(GPU)、CPU甚至移动硬件。它还作为NVIDIA NIM微服务提供,带有标准API接口,可以在任何地方部署,并已针对NVIDIA GPU进行了优化。

在接下来的几周内,将向Phi-3家族添加更多模型,为客户在质量-成本曲线上提供更多灵活性。Phi-3-small(70亿)和Phi-3-medium(140亿)将很快在Azure AI模型目录和其他模型园中提供。

微软持续提供在质量-成本曲线上最佳的模型,今天的Phi-3发布扩大了具有最先进小型模型的选择。Phi-3模型显著超越了同等大小和更大大小的语言模型在关键基准测试上的表现。例如,Phi-3-mini的表现优于其两倍大的模型,而Phi-3-small和Phi-3-medium则超越了包括GPT-3.5T在内的更大型号。

所有报告的数字都是使用相同的流程产生的,以确保数字之间的可比性。因此,由于评估方法的轻微差异,这些数字可能与其他公布的数字不同。我们的技术论文提供了更多关于基准测试的详细信息。

Phi-3模型按照微软的负责任AI标准开发,该标准是一套公司范围内基于责任、透明度、公平性、可靠性与安全、隐私与安全以及包容性的六大原则的要求。Phi-3模型经过严格的安全测量和评估、红队测试、敏感用途审查以及遵守安全指南,以帮助确保这些模型按照微软的标准和最佳实践负责任地开发、测试和部署。

微软利用Azure AI推出助手产品并使客户能够通过生成式AI转型其业务,这突显了对不同大小模型的需求。小型语言模型,如Phi-3,特别适用于资源受限环境、响应时间要求快的场景以及成本受限的用例。

Phi-3-mini特别适用于设备上使用,尤其是在与ONNX运行时进一步优化后,可以跨平台使用。Phi-3模型的较小大小也使得微调或定制更加容易和经济。此外,它们较低的计算需求使得它们是一个成本更低、延迟更低的选择。较长的上下文窗口使得它们能够接收和推理大量文本内容——文档、网页、代码等。Phi-3-mini展示了强大的推理和逻辑能力,使其成为分析任务的理想选择。

客户已经在使用Phi-3构建解决方案。例如,在农业领域,Phi-3已经展现了其价值,尤其是在互联网可能不易获得的地方。如此强大的小型模型连同微软的助手模板,可在需要时为农民提供,且运行成本更低,使AI技术更加普及。

印度的领先商业集团ITC正在利用Phi-3作为其与微软在Krishi Mitra农民应用助手上持续合作的一部分。ITCMAARS技术总监Saif Naik表示:“我们与Krishi Mitra助手的目标是在保持大型语言模型的准确性的同时提高效率。我们很高兴能与微软合作使用经过精细调整的Phi-3来实现我们的目标——效率和准确性!”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/828153.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

云备份day05

📟作者主页:慢热的陕西人 🌴专栏链接:C云备份项目 📣欢迎各位大佬👍点赞🔥关注🚓收藏,🍉留言 主要内容实现Json实用类的设计,以及服务端的设计和实…

【电控笔记5.6】Butterworth滤波器

Butterworth滤波器 需求:在增益交越频率拥有最小的相位滞后 波器经常被使用原因是 Butterworth 滤波器对于给定阶数,拥有最倾斜的衰减率而在伯德图又不会产生凸峰,同时在低频段的相位滞后小,因此本节将为各位介绍 Butterworth 低…

CTFshow-PWN-栈溢出(pwn43)

32位的 system(); 但是好像没"/bin/sh" 上面的办法不行了,想想办法 检查:32 位程序 ida 分析: 跟进 ctfshow 函数 定义了一个长度为 104 的字符数组 s,gets() 函数被用来从标准输入(键盘)中读取…

OpenCompass 大模型评测实战——笔记

OpenCompass 大模型评测实战——笔记 一、评测1.1、为什么要做评测1.2、如何通过能力评测促进模型发展1.2.1、面向未来拓展能力维度1.2.2、扎根通用能力1.2.3、高质量1.2.4、性能评测 1.3、评测的挑战1.3.1、全面性1.3.2、评测成本1.3.3、数据污染1.3.4、鲁棒性 二、OpenCompas…

【漏洞复现】云时空社会化商业ERP系统LoginName SQL注入漏洞

漏洞描述: 云时空社会化商业ERP系统loginName存在SQL注入漏洞,攻击者可以通过此漏洞获取数据库敏感信息。 搜索语法: Fofa-Query: app"云时空社会化商业ERP系统" 漏洞详情: 1.云时空社会化商业ERP系统。 2.漏洞POC&#xff1a…

迪拜Token2049展会圆满落幕,MVP成唯一MEMECOIN项目,闪耀全场!

近日,据多家媒体报道,于全球财富聚集地迪拜举行的全球性大型区块链会议TOKEN2049圆满落幕。来自全球的5000多家公司和100多个国家10000名参与者共同参会,讨论未来30年至50年关于区块链行业的宏大未来。 新晋MEMECOIN项目MAGA VP(…

【NLP】大语言模型基础之GPT

大语言模型基础之GPT GPT简介1. 无监督预训练2. 有监督下游任务微调 GPT-4体系结构1. GPT-4的模型结构2. GPT-4并行策略3. GPT-4中的专家并行GPT-4的特点 参考连接 以ELMo为代表的动态词向量模型开启了语言模型预训练的大门,此后,出现了以GPT和BERT为代表…

Spring - 3 ( 12000 字 Spring 入门级教程 )

一:Spring Web MVC入门 1.1 响应 在我们前⾯的代码例子中,都已经设置了响应数据, Http 响应结果可以是数据, 也可以是静态页面,也可以针对响应设置状态码, Header 信息等. 1.2 返回静态页面 创建前端页面 index.html(注意路径) html代码 …

SpringMVC基础篇(二)

文章目录 1.Postman1.基本介绍Postman是什么? 2.Postman快速入门1.Postman下载点击安装自动安装在系统盘 2.基本操作1.修改字体大小2.ctrl “” 放大页面3.进入创建请求界面 2.需求分析3.具体操作4.保存请求到文件夹中1.点击保存2.创建新的文件夹3.保存成功 3.使用…

嵌入式4-24

作业: 整理思维导图 定义一个矩形类Rec,包含私有属性length,width,有以下成员函数: void set_length(int l); //设置长度 void set_width(int w); //设置宽度 int get_length(); //获取长度 int get_width(); //获取宽…

【上海大学计算机组成原理实验报告】四、指令系统实验

一、实验目的 了解指令结构、PC寄存器的功能和指令系统的基本工作原理。 学习设计指令的方法。 二、实验原理 根据实验指导书的相关内容,对于部分使用频率很高,且只用几条微指令即可完成的简单操作,可以把这部分简单操作的微指令序列固定下…

C#窗体中动态按钮的设计方法:创建特殊窗体

目录 1.动态按钮的设计方法 2.实例 (1) Resources.Designer.cs (2)Form1.Designer.cs (3)Form1.cs (4) 生成效果 在窗体界面中,通常以按钮来代替菜单栏的功能&…

华卓荣登「2024数商典型应用场景“乘数榜”」

4月18日,2024未来数商大会在杭州未来科技城学术交流中心举行,由浙江省科学技术协会指导,未来数商大会组委会主办,浙江省数字经济学会、国脉研究院承办。中国工程院院士陈纯、中国互联网协会副理事长高新民、中国社科院信息化研究中…

网工内推 | 深圳网工专场,上市公司、国企,安全认证优先

01 深圳市同为数码科技股份有限公司武汉分公司 招聘岗位:网络工程师 职责描述: 1、负责网络设备的管理、调试、配置、维护等; 2、负责信息安全网络安全设备、系统的运维; 3、负责整体网络系统技术的相关工作,包括架构…

python学习笔记(集合)

知识点思维导图 # 直接使用{}进行创建 s{10,20,30,40} print(s)# 使用内置函数set()创建 sset() print(s)# 创建一个空的{}默认是字典类型 s{} print(s,type(s))sset(helloworld) print(s) sset([10,20,30]) print(s) s1set(range(1,10)) print(s1)print(max:,max(s1)) print(m…

Docker的介绍及应用

1.什么是Docker 我们在部署大型项目的时候,肯定会遇到这种问题,大学项目组件较多,运行环境复杂,部署时会碰到一些问题:例如node、redis、mysql等这些应用都有自己的依赖和函数库。这种复杂的依赖关系很容易出现兼容问…

【docker】

下载脚本 yum remove docker docker-client docker-client-latest docker-common docker-latest docker-latest-logrotate docker-logrotate docker-selinux docker-engine-selinux docker-engine docker-ce yum install -y yum-utils device-mapper-persistent-data lvm2 --s…

Redis概述

目录 redis概述1. 什么是redis2. 为什么使用redis3. redis为什么快4. 哪些场景下使用redis 参考 Redis概述 Redis在线体验网站 Try Redis 基础概念,后续知识有时间整理(数据结构、核心知识、高可用&可扩展、应用实践) redis概述 1. 什么是…

YOLOv9改进策略 | 添加注意力篇 | TripletAttention三重注意力机制(附代码+机制原理+添加教程)

一、本文介绍 本文给大家带来的改进是Triplet Attention三重注意力机制。这个机制,它通过三个不同的视角来分析输入的数据,就好比三个人从不同的角度来观察同一幅画,然后共同决定哪些部分最值得注意。三重注意力机制的主要思想是在网络中引入…

Mac中隐私安全性设置-打开任何来源

文章目录 **Mac中隐私安全性设置-打开任何来源**一、目的二、打开方式 Mac中隐私安全性设置-打开任何来源 一、目的 从外部下载的软件频繁打不开,需要从隐私安全性中重新选择一下;默认Mac隐藏了任何来源 二、打开方式 打开终端,输入一下命…