苹果12月14日释放了一个名为Ferret的多模态大语言模型,有的翻译是雪貂,有的是法学硕士,要我说,还是叫雪貂吧,接地气亲民,将来犯蠢的时候出来发张雪貂的可爱表情包作公关就完事了,你个法学硕士到时候犯蠢怕不是要被暴躁老哥们都冲烂咯。该模型不仅可以准确识别图像并描述其内容,同时它还能够识别和定位图像中的各种元素,无论你用怎样的方式描述图像内容,Ferret都能准确地在图像中找到并识别出来。
Ferret有两个版本,分别是(7B, 13B)。为了增强Ferret模型的能力,苹果公司特别收集了一个名为GRIT的数据集,包含了1.1M个样本,这些样本包含了丰富的层次空间知识。
主要功能和特点:
- 多模态理解: Ferret可以同时处理和理解图像和文本,能够在多种不同的模式之间建立联系。
- 空间指代理解: Ferret能够识别和理解图像中特定区域的含义,即使这些区域的形状和大小各不相同。
- 理解复杂的文本描述: Ferret能够理解各种类型的文本描述,无论这些描述是具体的还是抽象的。
- 开放词汇描述精准定位:根据文本描述,Ferret能够在提供的图像中准确地找到并标记出相应的物体或区域。
- 混合区域表示: Ferret使用一种创新的表示方法来处理图像中的区域,结合了离散坐标和连续特征。
- 空间感知的视觉采样器:引入了一个空间感知的视觉采样器,能够根据区域的形状和稀疏性提取视觉特征。
- 多样的区域输入: Ferret具有识别和理解图像中各种不同类型区域的能力,包括点、边界框和自由形状。
- GRIT数据集:包含1.1M个样本,提供丰富的层次空间知识,包含95K难负样本,用于提高模型在处理困难情况下的鲁棒性和准确性。
主要表现:
- Ferret-Bench评估:在指称描述、指称推理和对话中的定位等任务上,相比现有的最佳多模态大型语言模型,Ferret平均提高了20.4%。
- 改善对象幻觉: Ferret能够减少在描述图像时的错误或虚构内容,改善了对象幻觉问题,提高了描述的准确性和可靠性。
- 空间信息和语义处理: Ferret在传统的指代和定位任务中表现优异,同时能够更准确地理解和处理图像中的空间信息和语义。
可能适用的应用场景:
- 由于其强大的图像和文本处理能力,Ferret适用于多种应用场景,包括图像搜索、自动图像标注、交互式媒体探索等。
- 通过其创新的方法和技术,Ferret为多模态语言模型在空间理解和定位方面提供了新的可能性,特别是在处理复杂的图像和文本交互时。