微软发布Phi-3 Mini,性能媲美GPT-3.5、Llama-3,可在手机端运行

前言

微软发布了最新版的Phi系列小型语言模型(SLM) - Phi-3。这个系列包括3个不同参数规模的版本:Phi-3 Mini (38亿参数)、Phi-3 Small (70亿参数)和Phi-3 Medium (140亿参数)。

Phi系列模型是微软研究团队开发的小规模参数语言模型。从第一代Phi-1到第二代Phi-2,参数规模都控制在30亿以内,但在各种评测中都取得了出色的成绩。第三代Phi-3系列进一步扩大了参数规模,以期在性能上更进一步。

  • Huggingface模型下载:https://huggingface.co/collections/microsoft/phi-3-6626e15e9585a200d2d761e3

  • AI快站模型免费加速下载:https://aifasthub.com/models/microsoft

技术特点

Phi-3系列模型的创新主要体现在两个方面:

  • 训练数据集的设计 Phi-3模型是基于一个高达3.3万亿tokens的大规模数据集训练的。这个数据集结合了经过严格过滤的网络数据和高质量的合成数据,使得相对较小的模型也能取得出色的性能。

  • 安全性和稳健性的考虑 Phi-3模型经历了周密的安全评估和调整,包括有监督微调、直接偏好优化、自动化测试和红队评估等,确保了模型在安全性和可靠性方面符合微软的要求。

此外,Phi-3在支持更长上下文长度(4K和128K tokens)、针对不同平台的优化部署等方面也有创新。

性能表现

从评测结果来看,Phi-3系列模型的性能都非常出色。以30亿参数规模为例,Phi-3 Mini在MMLU、GSM8K和MT-Bench等基准测试中均优于同等或更大模型,与Mixtral 8x7B和GPT-3.5相媲美。

更大规模的Phi-3 Small和Phi-3 Medium也展现出更强大的能力,在一些测试指标上甚至超过了Mixtral 8x22B-MoE这样的大型模型。这说明Phi系列模型在小尺寸下也能取得出色的性能。

应用场景

Phi-3系列模型的小尺寸和高性能使它们非常适合部署在资源受限的设备和场景中,例如手机、嵌入式设备等。这使得它们能够在没有稳定网络连接的情况下,为用户提供高质量的对话服务和个性化内容。

微软的客户已经开始在农业等领域使用Phi-3模型,为缺乏稳定网络的农民提供便捷、经济的AI解决方案。未来我们也可以期待Phi-3模型被集成到智能手机、家用电器等设备中,为日常生活带来智能化的新体验。

未来展望

随着AI技术的不断进步,小型但功能强大的语言模型如Phi-3必将在各行各业中扮演重要角色。它们可以弥补大模型在部署成本、延迟和离线使用等方面的缺陷,为用户提供更贴近生活的智能化服务。

微软Phi系列模型的发展史也表明,通过优化训练数据和采用负责任的开发方法,即使在相对较小的模型规模下也能取得出色的性能。这为未来小型语言模型的应用开辟了广阔的前景。

总结

微软Phi-3系列小语言模型的推出,标志着小型模型在性能和应用场景上都取得了突破性进展。凭借创新的训练数据设计和周密的安全考量,Phi-3系列在各项评测中均取得了出色的成绩,媲美甚至超越了许多大型模型。

这种"小而强"的特点,使Phi-3系列模型非常适合部署在资源受限的设备和场景中,开启了离线AI应用的新篇章。随着技术的不断进步,我们有理由相信小型语言模型将在未来扮演越来越重要的角色,让智能技术真正融入到人们的日常生活中。

模型下载

Huggingface模型下载

https://huggingface.co/collections/microsoft/phi-3-6626e15e9585a200d2d761e3

AI快站模型免费加速下载

https://aifasthub.com/models/microsoft

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/3156.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

想把MP3音频转换成OGG格式需要什么工具?四种你不知道的音频转换工具在这里

​一,引言 随着数字音乐的发展,音频格式的种类也日益增多。MP3和OGG是其中两种常见的音频格式,它们各有优缺点,适用于不同的场景。有时,我们可能需要将MP3格式的音频转换为OGG格式,以满足特定的需求。本文…

JavaEE初阶——多线程(六)——线程池

T04BF 👋专栏: 算法|JAVA|MySQL|C语言 🫵 小比特 大梦想 此篇文章与大家分享多线程的第六篇文章,关于线程池 如果有不足的或者错误的请您指出! 目录 3.线程池3.1标准库的线程池3.2 标准库自己提供的几个工厂类3.3自己实现一个线程池完成大体框架接下来完…

LangChain的核心模块和实战

主要模型 LLM:对话模型, 输入和输出都是文本Chat Model: 输入输出都是数据结构 模型IO设计 Format: 将提示词模版格式化Predict: langchain就是通过predict的方式调用不同的模型, 两个模型的区别不大, Chat Model 是以LLM为基础的.Parese: langchain还可以对结果进行干预, 得…

解决Oracle锁表的方法

在实际工作中,并发量比较大的项目,经常会出现锁表的问题,下面我将复现这个问题,并给出解决方法。 一、问题复现 1、session1修改aabb表的B字段为迪迦奥特曼,但是不提交该事务。 2、session2也修改这行的这个字段。 发…

Prompt-to-Prompt Image Editing with Cross Attention Control

Prompt-to-Prompt Image Editing with Cross Attention Control TL; DR:prompt2prompt 提出通过替换 UNet 中的交叉注意力图,在图像编辑过程中根据新的 prompt 语义生图的同时,保持图像整体布局结构不变。从而实现了基于纯文本(不…

终于有人把“Linux云计算路线”整理出来了,收藏起来,随时查看

一,计算机硬件 二,计算机网络 三,Linux系统管理 四,构建Linux服务系统,数据库,程序及Web服务 五,消息队列,web集群,系统及软件优化,智能化监控,海…

【大语言模型LLM】-基础语言模型和指令微调的语言模型

🔥博客主页:西瓜WiFi 🎥系列专栏:《大语言模型》 很多非常有趣的模型,值得收藏,满足大家的收集癖! 如果觉得有用,请三连👍⭐❤️,谢谢! 长期不…

每日一题:Spring 框架中都用到了哪些设计模式❓

Spring 框架中使用了许多设计模式,以下列举一些比较重要的: 单例模式🔥:Spring 的 Bean 默认是单例模式,通过 Spring 容器管理 Bean 的生命周期,保证每个 Bean 只被创建一次,并在整个应用程序中…

Qt Quick centerIn和fill 的用法

1)Qt Quick centerIn和fill 的用法: import QtQuick 2.5 Rectangle { width:300; height:200; Rectangle { color: "blue"; anchors.fill: parent; border.width: 6; border.co…

C++ 面向对象

C/C总述:Study C/C-CSDN博客 面向对象程序设计 OOP(object-oriented programming) 面向对象的三大特性 访问权限 C通过 public、protected、private 三个关键字来控制成员变ᰁ和成员函数的访问权限,它们分别表示公有的、受保护的、私有的&#xff0c…

qt QTreeWidget 学习

树形控件的节点可以有多层、多个子节点, 如果将子节点全部展开,那么每一行都是一个数据条目。QTreeWidgetItem 比较特殊,一个条目内部可以有多列数据信息,相当于表格控件一整行的表格单元集成为一个条目。 默认情况下,…

Linux笔记之本地安装(用户安装)目录和系统安装目录

Linux笔记之本地安装(用户安装)目录和系统安装目录 —— 2024-04-20 杭州 code review! 文章目录 Linux笔记之本地安装(用户安装)目录和系统安装目录1.区别解释说明:1. /usr/local/include 和 /usr/include2. /usr/local/bin 和 /usr/bin3. /usr/local/lib 和 /u…

XiaodiSec day007 Learn Note 小迪安全学习笔记

XiaodiSec day007 Learn Note 小迪安全学习笔记 记录得比较凌乱,不尽详细 07 2023.12.31 cms识别 资产泄漏,资产即为网站的资源,了解到网站使用了那种cms对信息收集很有帮助 使用工具识别cms 识别cms后可以进行代码审计,或…

怎么保存微信视频号中的视频,赶紧看过来教你下载视频号里的视频!

视频内容已成为我们获取信息和娱乐的重要方式。微信视频号作为新兴的短视频平台,汇聚了丰富多样的创作,但有时我们希望将喜欢的视频保存到本地以便离线观看或分享给朋友。那么,视频号里的视频如何下载呢?别急,本文将详…

CCRC-DSO学员分享:数据安全官——导师与朋友的双重身份

我叫杜刚。在过去的几年里,我一直从事政企业务的工作,主要以网络安全业务为主导。尽管我已经有多年的政企与网络安全的工作经验,但我始终认为,不断学习和提升自己的专业能力是至关重要的。这就是我考取CCRC-DSO数据安全官证书的原…

面试题总结第二弹

一.Volatile为什么不保证原子性? 因为它实际上是三个操作组成的一个复合操作。 首先获取volatile变量的值,将该变量的值加1,将该volatile变量的值写会到对应的主存地址。而原子性指的是一个或多个操作在CPU执行的过程中不会被中断的特…

11 - 在k8s官方文档上,经常搜索不到内容的问题

使用k8s官方文档时,会出现首页可以正常打开,但是输入搜索关键字之后,搜索不到内容的情况,如下图: 这是由于相关搜索组件被墙的原因,处理方法如下: 谷歌浏览器: 火狐浏览器&#x…

大模型实战—通义千问大模型微调

通义千问大模型微调 在之前的文章中,我分享了一些使用大语言模型开发应用的方法,也介绍了几个开源大语言模型的部署方式, 有同学给我留言说想知道怎么训练自己的大语言模型,让它更贴合自己的业务场景。完整的大语言模型训练成本…

springBoot集成seata实现分布式事务

背景 日常开发离不开分布式系统,自然避免不了分布式事务问题,Seata 是一款阿里开源的主流分布式事务解决方案,但实际工作引入seata感觉有点重,本人之前在商业银行做开发也很少团队使用。今天趁此机会做个demo,玩一玩了…

关系运算符

介绍 关系运算符的结果都是 boolean 型&#xff0c; 也就是要么是 true&#xff0c; 要么是 false关系表达式 经常用在 if 结构的条件中或循环结构的条件中 运算符运算范例结果相等于89false!不等于8!9true<小于8<9true<小于等于8<9true>大于8>9false>大…