苹果发布了一个Ferret(雪貂)多模态大模型,在一个无人问津的角落被一位博主捞起来

苹果12月14日释放了一个名为Ferret的多模态大语言模型,有的翻译是雪貂,有的是法学硕士,要我说,还是叫雪貂吧,接地气亲民,将来犯蠢的时候出来发张雪貂的可爱表情包作公关就完事了,你个法学硕士到时候犯蠢怕不是要被暴躁老哥们都冲烂咯。该模型不仅可以准确识别图像并描述其内容,同时它还能够识别和定位图像中的各种元素,无论你用怎样的方式描述图像内容,Ferret都能准确地在图像中找到并识别出来。

Ferret有两个版本,分别是(7B, 13B)。为了增强Ferret模型的能力,苹果公司特别收集了一个名为GRIT的数据集,包含了1.1M个样本,这些样本包含了丰富的层次空间知识。

主要功能和特点:

  1. 多模态理解: Ferret可以同时处理和理解图像和文本,能够在多种不同的模式之间建立联系。
  2. 空间指代理解: Ferret能够识别和理解图像中特定区域的含义,即使这些区域的形状和大小各不相同。
  3. 理解复杂的文本描述: Ferret能够理解各种类型的文本描述,无论这些描述是具体的还是抽象的。
  4. 开放词汇描述精准定位:根据文本描述,Ferret能够在提供的图像中准确地找到并标记出相应的物体或区域。
  5. 混合区域表示: Ferret使用一种创新的表示方法来处理图像中的区域,结合了离散坐标和连续特征。
  6. 空间感知的视觉采样器:引入了一个空间感知的视觉采样器,能够根据区域的形状和稀疏性提取视觉特征。
  7. 多样的区域输入: Ferret具有识别和理解图像中各种不同类型区域的能力,包括点、边界框和自由形状。
  8. GRIT数据集:包含1.1M个样本,提供丰富的层次空间知识,包含95K难负样本,用于提高模型在处理困难情况下的鲁棒性和准确性。

主要表现:

  1. Ferret-Bench评估:在指称描述、指称推理和对话中的定位等任务上,相比现有的最佳多模态大型语言模型,Ferret平均提高了20.4%。
  2. 改善对象幻觉: Ferret能够减少在描述图像时的错误或虚构内容,改善了对象幻觉问题,提高了描述的准确性和可靠性。
  3. 空间信息和语义处理: Ferret在传统的指代和定位任务中表现优异,同时能够更准确地理解和处理图像中的空间信息和语义。

可能适用的应用场景:

  • 由于其强大的图像和文本处理能力,Ferret适用于多种应用场景,包括图像搜索、自动图像标注、交互式媒体探索等。
  • 通过其创新的方法和技术,Ferret为多模态语言模型在空间理解和定位方面提供了新的可能性,特别是在处理复杂的图像和文本交互时。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/577023.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C语言—每日选择题—Day63

指针相关博客 打响指针的第一枪:指针家族-CSDN博客 深入理解:指针变量的解引用 与 加法运算-CSDN博客 第一题 1. 设C语言中,一个int型数据在内存中占2个字节,则unsigned int型数据的取值范围为 A:0~255 B:0…

mysql8.x版本_select语句源码跟踪

总结 源码基于8.0.34版本分析,函数执行流程含义大致如下: do_command 方法从连接中读取命令并执行,调用 dispatch_command 对命令进行分发。dispatch_command 调用 mysql_parse 对命令进行解析,如果遇到一条语句用 ; 分隔多条命…

CGAL中三角形曲面网格近似

1、介绍 此软件包实现了变分形状近似(VSA)方法,通过更简单的表面三角形网格来近似输入表面网格。该算法的输入必须是: 三角形分割;组合2流形 输出是一个三角形汤,可以构建成多边形曲面网格。 给定一个输入曲…

linux操作系统——进程(二) 进程状态

进程状态 你真正的理解了进程的状态嘛?特别是操作系统教材中学过的进程状态,你真的理解了吗? 教材上关于进程状态的说明 下面我们以下图为例: 这是教材上对操作系统的说明,但是它并没有详细的说明,这些状态具体是什么&#xf…

大语言模型说明书

在浩瀚的信息宇宙中,大语言模型如同一颗璀璨的星星正在熠熠生辉。21世纪以来,人工智能可谓是飞速发展,从简单的神经网络到大语言模型、生成式AI,这并非仅仅是一种技术的进步,更是人类智慧的飞跃。大语言模型不仅仅是语…

华为数通方向HCIP-DataCom H12-831题库(多选题:241-249)

第241题 (NEW) 以下哪些操作可能会影响客户网络的正常运行? A、从设备上下载日志 B、软件升级 C、路由协议配置变更 D、debug核心交换机上转发的所有IP报文 答案:ABCD 解析: 第242题 对于防火墙的默认安全区 Trust 和 Untrust 的说法,正确的有 A、从 Trust 区域访问 Untr…

Vue在页面上添加水印

第一步:在自己的项目里创建一个js文件;如图所示我在在watermark文件中创建了一个名为waterMark.js文件。 waterMark.js /** 水印添加方法 */ let setWatermark (str1, str2) > {let id 1.23452384164.123412415if (document.getElementById(id) …

【MYSQL】MYSQL 的学习教程(六)之 SQL 语句执行流程

1. 一条 SQL 查询语句是如何被执行的 MySQL 的基本架构示意图如下所示: MYSQL 线程处理请求流程: SQL 接口:MySQL 中处理请求的线程在获取到请求以后获取 SQL 语句去交给 SQL 接口去处理查询解析器:解析器会将 SQL 接口传递过来…

操作系统期末复习知识点二计算与应用

1.理解银行家算法判断死锁的定理并能计算相关的参数。 2.能利用LRU、FIFO算法求缺页率。 3.纯页式管理中,求逻辑地址对应的物理地址,页号、页内地址长度,画出逻辑地址的格式,在引入块表时,求出有效访问时间。 4.可变分…

【Java】SpringBoot快速整合Kafka

目录 1.什么是Kafka? 主要特点和概念: 主要组成部分: 2.Kafka可以用来做什么? 3.SpringBoot整合Kafka步骤: 1. 添加依赖: 2. 配置 Kafka: 3. 创建 Kafka 生产者: 4. 创建 Kafka 消费者: 5. 发布消息: 6. 使…

【MySQL学习笔记007】约束

1、概述 (1)概念:约束是作用于表中字段上的规则,用于限制存储在表中的数据。 (2)目的:保证数据库中数据的正确、有效性和完整性。 (3)分类 约束 描述 关键字 …

【各种**问题系列】Java 数组集合之间的相互转换

📌 问题点: 在 Coding 过程中经常会遇到数组、List、Set、Map 之间的相互转换......这里记录一下转换的几种方式。😶😶😶 目录 📌 集合转换 1.数组 转 List: 2.List 转 数组: 3…

如何将本地websocket发布至公网并实现远程访问服务端

文章目录 1. Java 服务端demo环境2. 在pom文件引入第三包封装的netty框架maven坐标3. 创建服务端,以接口模式调用,方便外部调用4. 启动服务,出现以下信息表示启动成功,暴露端口默认99995. 创建隧道映射内网端口6. 查看状态->在线隧道,复制所创建隧道的公网地址加端口号7. 以…

AG16KDDF256 User Manual

AGM AG16KDDF256 是由 AGM FPGA AG16K 与 DDR-SDRAM 叠封集成的芯片,具有 AG16K FPGA的可编程功能,提供更多可编程 IO,同时内部连接大容量 DDR-SDRAM。  FPGA 外部管脚 FBGA256 封装,管脚说明请见下表 Table-1: Tab…

YUM和编译安装

一、安装Linux 1.编译安装,灵活性高,难度较大,可以安装较新的版本 2.rpm安装(redhat) linux包安装 rpm 软件名 3.yum yum是rpm升级版本,解决了rpm的弊端 2和3用的都是红帽打包好的软件包,能…

cad安装路径显示灰色选择不了怎么办?

cad安装路径显示灰色选择不了怎么办呢?今天教给大家。 灰色是因为之前下载过一次,没有删干净,注册表里还有cad,它认为你的电脑中有cad,所以安装路径是灰色的,不能安装。先同时按下【xinR】键,打…

ip addr和ifconfig

ip addr可以显示更多信息,包括为启动的网络驱动如wlan,而ifocnfig只显示在线的驱动。若wlan是down的,则ip addr会显示信息,ifconfig不会显示信息。 ip addr: ifconfig:

视频号视频怎么保存到手机相册?

在微信视频号中看到喜欢的视频,想要缓存下载到手机,却怎么也找不到办法。很多朋友会选择去录屏,但保存下来的视频实在是不美观,而且费时费力!着实没必要!下面给大家推荐一款亲测有效的微信视频号视频下载方…

【excel密码】Excel工作表不能复制或移动

为什么excel文件打开之后,工作表里是可以编辑的,但是想要移动工作表或者复制、重命名等操作,这是什么原因?其实这是因为设置了工作簿保护,设置了保护的工作簿无法对整张工作表进行操作。 想要取消这种保护,…

算法——哈希表

哈希表简介 **是什么:**存储数据的容器有什么用:快速查找某个元素,时间复杂度O(1),空间复杂度O(n)**什么时候使用哈希表:**频繁查找某一个数(这里不要忘了之前的二分,时间复杂度O(logN)&#x…