微软发布多模态模型Phi-3-vision,仅4.2B,小模型大潜力

前言

在大型语言模型(LLM)领域,模型参数规模与性能之间一直存在着密切的联系。近年来,虽然参数规模不断攀升,但随之而来的训练成本和推理成本也成为了制约模型发展的瓶颈。为了打破这一困境,微软推出了 Phi-3 模型家族,旨在用更小的模型实现更高的性能。近期,微软在 Build 大会上发布了 Phi-3 家族的新成员——Phi-3-vision,一个仅有 42 亿参数的多模态模型,展现了小模型的巨大潜力。

  • Huggingface模型下载:https://huggingface.co/microsoft/Phi-3-vision-128k-instruct

  • AI快站模型免费加速下载:https://aifasthub.com/models/microsoft

技术特点

Phi-3-vision是Phi-3家族中的第一个多模态模型,结合了文本和图像视觉功能,以及对现实世界图像进行推理和从图像中提取文本并进行推理的能力。同时还针对图表和图解的理解进行了优化,可用于生成数据洞见和回答问题。Phi-3-vision是在Phi-3-mini的基础模型上构建的,微软继续坚持小型模型大潜力的路线:提供了强大的语言和图像视觉推理性能。

性能表现

Phi-3-vision 的性能表现超乎预期,在通用视觉推理任务、OCR、表格和图表理解任务中超越了像 Claude-3 Haiku 和 Gemini 1.0 Pro V 这样的更大模型。这充分证明了 Phi-3 家族在小模型设计方面的成功,以及在多模态领域的强大实力。

优势:
  • 小模型大潜力: 仅有 42 亿参数,性能却超越了更大的模型,证明了 Phi-3 模型家族在模型压缩和性能优化方面的突破。

  • 多模态能力: 结合了语言和视觉能力,能够进行图像理解,并进行文本推理和问答,以及图表、图解和表格理解任务。

  • 高效推理: 模型体积小,推理硬件资源需求低,非常适合在本地设备部署,满足企业对高效推理的需求。

Phi-3 模型家族:

除了 Phi-3-vision,微软还发布了其他三个 Phi-3 模型:

  • Phi-3-mini: 一个 38 亿参数的语言模型,提供两种上下文长度(128K 和 4K)。

  • Phi-3-small: 一个 70 亿参数的语言模型,提供两种上下文长度(128K 和 8K)。

  • Phi-3-medium: 一个 140 亿参数的语言模型,提供两种上下文长度(128K 和 4K)。

这些模型均已开源,在 Hugging Face 平台上可以找到所有 Phi-3 模型。

  • 应用场景

Phi-3 模型家族具有广泛的应用场景:

  • 语言理解和生成: Phi-3-mini、Phi-3-small 和 Phi-3-medium 模型可以被用于各种语言理解和生成任务,如内容创作、摘要、问答和情感分析。

  • 视觉推理: Phi-3-vision 模型非常适合需要对图像和文本进行推理的任务,例如 OCR 任务,以及图表、图解和表格理解任务。

  • 企业应用: 由于体积小,推理成本低,Phi-3 模型家族非常适合企业进行特定任务的微调训练,满足企业对成本效益和本地部署的需求。

总结

Phi-3-vision 的发布,再次证明了微软在 LLM 领域的技术实力,并展现了小模型在多模态领域的巨大潜力。随着技术的不断发展,相信 Phi-3 模型家族将会在更多领域发挥作用,为人们的生活带来更多便利和乐趣。

模型下载

Huggingface模型下载

https://huggingface.co/microsoft/Phi-3-vision-128k-instruct

AI快站模型免费加速下载

https://aifasthub.com/models/microsoft

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/17322.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

英语语法早操练-(上)

说起语法宝宝感觉心里苦。那么多语法注意点,哪个都放不到心里,句子表达还是错。这种情况是浪费了80%的时间做了达不到20%效果的事情。 要想写出没有语法错误的句子,那至少得知道词性和句子成分。 词性就是名词、动词、形容词、介词等 句子成分…

vue3父组件改变 子组件不改变(uniapp)

项目中遇到了这么个问题 场景:封装select组件,通过子组件选中后传递值给父组件,父组件需要回显这个值(这里使用 defineProps和defineEmits就可以实现,或者直接使用defineModel也可以实现,但是uniapp目前不…

Stable Diffusion AI绘画:从提示词到模型出图的全景指南

💂 个人网站:【 摸鱼游戏】【神级代码资源网站】【工具大全】🤟 一站式轻松构建小程序、Web网站、移动应用:👉注册地址🤟 基于Web端打造的:👉轻量化工具创作平台💅 想寻找共同学习交…

「小明赠书活动」第四期《Java开发坑点解析:从根因分析到最佳实践》

目录 ⭐️ 赠书 - 《Java开发坑点解析:从根因分析到最佳实践》 参 加 活 动 方 式 见 文 末 ⭐️内容简介 -《Java开发坑点解析:从根因分析到最佳实践》 ⭐️阅读建议 -《Java开发坑点解析:从根因分析到最佳实践》 ⭐️《Java开发坑…

如果你有电脑,请狠下心来你死磕这6门技能

在这个日新月异、竞争激烈的时代,掌握一门技能已经远远不够。为了在职场中脱颖而出,我们需要不断地学习和提升自己的能力。你的电脑除了用来办公做文档外,还可以用它自学这些技能,让你轻松月入过万! 1:编程…

C++容器之向量(std::vector)

目录 1 概述2 使用实例3 接口使用3.1 construct3.2 assigns3.3 iterators3.4 capacity3.5 rezize3.6 reserve3.7 shrink_to_fit3.8 access3.9 assign3.10 push_back3.11 pop_back3.12 insert3.13 erase3.14 swap3.15 clear3.16 emplace3.17 emplace_back3.18 get_allocator1 概…

记录一次内存取证

1.情景复现 我姐姐的电脑坏了。我们非常幸运地恢复了这个内存转储。你的工作是从系统中获取她所有的重要文件。根据我们的记忆,我们突然看到一个黑色的窗口弹出,上面有一些正在执行的东西。崩溃发生时,她正试图画一些东西。这就是我们从崩溃…

探索数组的最大值与最小值:从基础到进阶

新书上架~👇全国包邮奥~ python实用小工具开发教程http://pythontoolsteach.com/3 欢迎关注我👆,收藏下次不迷路┗|`O′|┛ 嗷~~ 目录 一、引言:数组的奥秘 二、基础操作:查找数组的最大值和最小值 三、…

怎样消除工人们对六西格玛培训的抵触情绪?

近年来,企业为了提高产品质量、优化生产流程,纷纷引入了六西格玛管理方法。然而,在实施过程中,不少企业却遭遇了工人们对六西格玛培训的抵触情绪。这种情绪的存在不仅阻碍了六西格玛的推广和应用,也影响了企业的整体运…

packstack一键部署OpenStack云平台

OpenStack一键部署 文章目录 OpenStack一键部署资源列表基础环境一、基础环境配置1.1、配置时间同步1.2、配置网络1.3、添加hosts绑定1.4、更新系统并安装常用软件 二、使用packstack一键部署OpenStack2.1、Train版YUM源安装2.2、Packstack软件包安装2.3、Packstack一键部署Ope…

Unity 生成模版代码

1、创建模版代码文本 using System.Collections; using System.Collections.Generic; using UnityEngine;public class ClassNameScritpItem : MonoBehaviour {public GameObject go;// Start is called before the first frame updatevoid Start(){go new GameObject();}// …

LeetCode115:不同的子序列

题目描述 给你两个字符串 s 和 t ,统计并返回在 s 的 子序列 中 t 出现的个数,结果需要对 109 7 取模。 代码 /*dp[i][j]:以i为结尾的s中有以j为尾的t的个数递推公式:当s[i - 1] 与 t[j - 1]相等时,dp[i][j]可以有两…

工业LED显示屏汉字乱码方式的解决

目录 研究背景 解决方法 原因分析 尝试的解决方法 本质原因 写在最后 研究背景 想实现LED显示屏数字、字母、汉字均能正常显示的效果(效果如下)。在将UTF-8改为GB2312 编码之前,数字和字母不乱,但是汉字会乱码。 解决方法 1…

多线程笔记

1. run() VS start() run()方法: run()方法是java.lang.Runnable接口中定义的一个方法。当一个类实现了Runnable接口,并创建了一个线程对象时,你需要覆盖run()方法来定义线程要执行的任务。run()方法定义了线程的主体逻辑,当线程…

【详细介绍下PostgreSQL】

🌈个人主页: 程序员不想敲代码啊 🏆CSDN优质创作者,CSDN实力新星,CSDN博客专家 👍点赞⭐评论⭐收藏 🤝希望本文对您有所裨益,如有不足之处,欢迎在评论区提出指正,让我们共…

Java面试八股之Synchronized锁升级的原理

Synchronized锁升级的原理 Synchronized锁升级是Java为了提高并发性能而引入的一项优化措施,这一机制主要发生在JDK 1.6及之后的版本中。Synchronized锁升级旨在减少锁带来的性能开销,通过从低开销的锁逐步升级到高开销的锁,以适应不同的竞争…

I/O '24|学习资源焕新,技术灵感升级

2024 年 5 月 15 日凌晨举行的 Google I/O 大会为各地的开发者们带来了新的灵感。面对技术革新,相信各位开发者们都迫不及待想要自己上手试一试。 别急,Google 谷歌今年为中国的开发者们准备了一份特别的学习资源,让开发者们自由探索新知。 G…

Angular安装与基础语法

安装Angular cli npm i -g angular-cli 创建项目 npm new project_name(项目名称) 启动项目 cd project_name(j进入新创建的项目) ng serve --open 创建组件 ng g c xxx 会在根组件的统计生成一个组件xxx文件夹,比如ng g c hello 就会生成一个hello组件文件…

夜骑,是探索城市的另一种维度,是与自我对话的静谧时光

月光下的骑行浪漫主义者 想象一下,当白日的喧嚣退去,城市的霓虹开始闪烁,你跨上心爱的自行车,迎着凉爽的晚风,穿梭于灯火阑珊之中。夜骑,不仅仅是一场运动,更是一种逃离日常、探索未知的冒险。但…

【Ambari】Docker 安装Ambari 大数据单机版本

目录 一、前期准备 1.1 部署 docker 1.2 部署 docker-compose 1.3 版本说明 二 、镜像构建启动 2.1 系统镜像构建 2.2 安装包源镜像构建 2.3 kdc镜像构建 2.4 集群安装 2.5 容器导出为镜像 三、Ubuntu环境安装测试 3.1 环境准备 3.2 集群容器启动 一、前期准备 1.…