多模态AI:概念、用例、优势、挑战及发展未来

多模态实际上是在尝试复制人类的感知方式:我们将视觉、声音和触觉等感官输入结合起来,形成对现实的更细致入微的感知,并利用这些数据来做出决定或采取行动。多模态模式也在尝试做同样的事情。

多模态AI的应用范围正在不断扩大,那么究竟什么是多模态AI?它又是如何运行的?

生成式AI在短短几年内取得了长足的进步,从基本的文本响应发展到复杂的散文。随着多模态AI(Multi-modal AI)的发展,这项技术的界限正在进一步扩大。如今,多模态AI正在涉足从医疗保健到机器人等多个行业。谷歌、OpenAI、Anthropic和Meta等科技巨头也纷纷推出了自己的多模态AI模型。

什么是多模态AI?

多模态AI是指同时利用各种类型(或模式)数据形成见解、做出预测和生成内容的AI系统。

多模态模型能够处理文本、图像、视频、语音等信息,以完成一系列任务,例如根据食物照片生成食谱,或是将音频剪辑翻译成多种语言等。

这与大多数只能处理单一模式数据的AI模型不同。例如,大型语言模型(LLM)只能处理文本数据,而卷积神经网络(CNN)只能处理图像。

简单来说,多模态实际上是在尝试复制人类的感知方式:我们将视觉、声音和触觉等感官输入结合起来,形成对现实的更细致入微的感知,并利用这些数据来做出决定或采取行动。多模态模式也在尝试做同样的事情。通过在单个模型中集成多种数据类型,多模态AI系统可以更全面地了解其环境。

多模态VS单模态

多模态AI模型可以同时处理多种类型的数据,而单模态AI模型仅限于单一类型的数据输入,并且只能以特定的数据模态提供输出。例如,支持ChatGPT免费版本的GPT-3.5只支持文本输入和输出,它就属于单模态;但另一款ChatGPT模型GPT- 40可以处理文本、图像和音频数据,它就属于多模态。

多模态AI运行原理

多模态模型通常建立在转换器(Transformer)架构上,通过计算数据点之间的关系,以理解和生成数据序列。它们处理“大量”的文本数据,删除一些单词,然后根据周围单词的上下文预测缺失的单词是什么。对于图像、音频和模型设计用来理解的任何其他类型的数据,亦是如此操作。

这是通过一个称为“嵌入”(Embedding)的过程来完成的,在这个过程中,原始数据被编码成系统更容易理解和处理的数字格式(向量)。例如,文本数据被分解成单独的标记(单词、字母等),这些标记被转换成数字。音频数据被分割并分解为音高和振幅等特征,这些特征也被转化为数字。然后将所有这些数字输入到转换器中,转换器捕获不同模态内部和之间的关系和上下文。

在少数情况下,模型是“原生多模态”的——专门为处理多种数据类型而构建的——Embedding通过一个称为“早期融合”(Early Fusion)的过程同时发生,该过程将来自每种模态的原始数据组合、对齐和处理,使它们都具有相同(或相似)的数学表示。例如,这个模型不仅学会了“鸭子”这个词,还学会了鸭子的样子和声音。从理论上讲,这使得该模型不仅能够识别鸭子的照片、鸭子的嘎嘎声或字母“D-U-C-K”,而且还能识别鸭子是什么这一更广泛的“概念”。

然而,这种方法的实现并不容易,这就是为什么目前存在的许多多模态系统都需要在后期通过一个称为“后期融合”(Late Fusion)——即在每种类型的数据分别进行分析和编码之后——的过程合并来自多个模态的信息。后期融合提供了一种结合和比较不同类型数据的方法,这些数据在各自的形式中外观、大小和含义各不相同。

在开发出多模态模型后,使用带有人类反馈的强化学习(RLHF)和红队等技术对其结果进行微调,以减少幻觉、偏见、安全风险和其他有害反应。一旦完成,该模型的行为应该类似于LLM,但具有处理文本以外的其他类型数据的能力。

多模态AI用例

以下是如今多模态AI应用的一些关键领域。

聊天机器人

配备多模态的AI聊天机器人可以比纯文本聊天机器人更有效地响应用户,提供更丰富、更有用的答案。例如,用户可以输入一张垂死的室内植物的照片,并获得如何使其起死回生的建议,或者获得他们链接到的视频的详细解释。

AI助手

像亚马逊的Alexa和谷歌助手这样的AI助手之所以存在,是因为多模态AI。这些智能设备可以通过简单的语音命令进行控制,允许用户调出特定的图像和视频,接收当前事件、指令和一般信息(音频和文本格式),甚至调整家中的照明和温度。

医疗保健

医疗领域需要解释几种形式的数据,包括医学图像、临床记录、电子健康记录和实验室测试。单模态AI模型在特定模式下执行特定的医疗保健任务,例如分析X射线或识别遗传变异。LLM通常被用来帮助用简单的术语回答与健康相关的问题。现在,研究人员开始将多模态AI引入其中,开发新的工具,将来自所有这些不同来源的数据结合起来,帮助进行医学诊断。

自动驾驶汽车

由于多模态AI,自动驾驶汽车可以处理和解释来自多个来源的数据。摄像头提供有关车辆环境的视觉信息,雷达探测物体及其速度,而激光雷达测量物体之间的距离,GPS提供位置和导航数据。通过将所有这些数据放在一起并进行分析,AI模型可以实时了解汽车周围的环境并做出相应的反应——它们可以发现障碍物,预测其他车辆或行人的位置,并决定何时转向、刹车或加速。

机器人

配备多模态AI的机器人整合了来自摄像头、麦克风和深度传感器的数据,使它们能够更准确地感知环境并做出相应的反应。例如,它们可以使用摄像头来观察和识别物体,或者使用麦克风来理解口头命令。甚至可以通过传感器固定,让它们拥有触觉、嗅觉和味觉等人类拥有的全部五种感官。无论是人形机器人还是装配线上的协作机器人,多模态AI都能给各种机器人在不同的环境中有效地导航。

多模态AI的优势

更好地理解上下文

在学习过程中,多模态模型同时集成和分析广泛的数据类型,这使它们对给定主题有了更全面的上下文理解,而非每个单独的数据类型单独能够传达的内容。

例如,如果一个多模态模型被提示生成一段狮子的视频,它不仅会把“狮子”这个词看作是一个字母序列——它还会知道狮子的样子,狮子是如何移动的,以及狮子的吼声是什么样的。

更准确的结果

由于多模态模型旨在识别不同类型数据之间的模式和联系,因此它们往往能够更准确地理解和解释信息。

它们不仅可以通过分析文本,还可以通过分析图像来加强结果,从而更准确地预测,或者回答以前无法回答的问题。需要注意的是,多模态AI仍然有可能出错,并可能产生偏见或其他有害的结果。

胜任更广泛的任务

多模态AI系统可以处理比单模式AI系统更广泛的任务。根据特定的模型,它们可以将文本提示转换为AI生成的图像,用简单的语言解释视频中的内容,根据照片生成音频剪辑等等。同时,单模态系统只能完成其中的一项任务。

更好地理解用户意图

多模态允许用户选择他们想要与AI系统交互的方式,而不是被困在一种交流模式中。

无论用户是用动作、语言、打字、做手势来表达自己,这都无关紧要。多模态AI系统可以让用户更好地控制他们想要表达的内容,以更好地捕捉他们的真实意图。

更直观的用户体验

由于多模态系统允许用户根据自己的感觉以几种不同的方式表达自己,因此用户体验“感觉更加直观”。例如,用户可以上传一段音频片段,而不必描述他们的汽车引擎发出的声音,从而获得有关问题的建议。或者,他们可以上传冰箱和食品储藏室的照片,而不是列出厨房里所有的食物来寻求食谱建议。

多模态AI的挑战

需要更多的数据

由于它们使用多种不同的模式,因此多模态模型需要大量数据才能正常工作。例如,如果一个模型的目标是将文本转换为图像,反之亦然,那么它需要有一个健壮的文本和图像数据集。

此外,模型所需的数据量还会随着模型中参数(变量)的数量而增加。随着参数数量的增加,模型需要的数据也就越多。

有限的数据可用性

并非所有的数据类型都很容易获得,尤其是不太传统的数据类型,比如温度或手部运动。互联网是许多AI模型训练数据的重要来源,它主要由文本、图像和视频数据组成。因此,如果您想要制作一个可以处理任何其他类型数据的系统,则必须从私有存储库购买或自己制作。

数据很难对齐

正确地对齐多个不同的数据类型通常很困难。数据的大小、规模和结构各不相同,需要仔细处理和集成,以确保它们在单个AI系统中有效地协同工作。

计算密集且昂贵

在很大程度上,多模态之所以成为可能,要归功于当今前所未有的计算资源。这些模型需要能够同时处理海量的不同数据类型,这需要大量的计算能力。此外,在应用程序中部署多模态AI还需要强大的硬件基础设施,这进一步增加了其计算需求和环境足迹。

更重要的是,它通常还很昂贵。单模态模型本身就很昂贵——传言GPT-3花费了OpenAI近500万美元,而Meta估计在Llama 2上花费了2000万美元。多模态比这些模式还要贵“好几个数量级”。

加剧现有的GenAI问题

常规GenAI模型的许多问题——即偏见、隐私问题、幻觉——在多模态模型中也很普遍。多模态AI实际上可能会加剧这些问题。

在数据集中,偏差几乎是不可避免的,因此将来自不同来源的数据结合起来可能会导致更明显和更广泛的偏差结果。处理不同类型的数据还可能涉及敏感信息,进一步增加数据隐私和安全的风险。此外,整合多种数据的复杂性可能会增加产生不准确或误导性信息的风险。

这些问题给机器人应用带来了更大的风险,因为它们的行为会对物理世界产生直接影响。

您的机器人——无论是无人机、汽车还是人形机器人——都将在现实世界中采取某种行动,并产生物理后果。如果您在控制机器人的模型上没有任何护栏,就有可能出现幻觉或对数据的错误解释,导致机器人采取可能危险或有害的行动。

多模态AI的未来

许多专家认为,最终,多模态可能是实现通用AI(AGI)的关键。通用AI是一种理论形式的AI,可以像人类一样理解、学习和执行任何智力任务。通过结合各种类型的数据,多模态模型可以对周围的世界形成更全面和全面的理解,这反过来又可以使它能够在广泛的任务中应用知识,甚至比人类更好。

史蒂文斯理工学院机械工程系副教授Brendan Englo表示:“在寻求一种看起来更像人类智能的AI时,它必须是多模态的。它必须像人类一样处理尽可能多的输入模式——视觉、语言、触觉、身体动作——并且能够以与人类相同的智能对所有这些事情做出反应。”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/48422.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

使用 useLazyAsyncData 提升数据加载体验

title: 使用 useLazyAsyncData 提升数据加载体验 date: 2024/7/19 updated: 2024/7/19 author: cmdragon excerpt: 摘要:本文介绍useLazyAsyncData函数在Nuxt 3中的使用,以提升数据加载体验。此函数支持异步获取数据并在组件中处理挂起与错误状态&…

IOCTLance:一款针对x64 WDM驱动程序的漏洞检测工具

关于IOCTLance IOCTLance是一款针对x64 WDM驱动程序的漏洞检测工具,该工具来源于CODE BLUE 2023上展示的一个名为“使用符号执行和污点分析增强 WDM 驱动程序漏洞检测 ”的项目。该工具能够有效增强检测Windows驱动程序模型(WDM)驱动程序中各…

Redis之List列表

目录 一.列表讲解 二.列表命令 三.内部编码 四.应用场景 Redis的学习专栏:http://t.csdnimg.cn/a8cvV 一.列表讲解 列表类型是用来存储多个有序的字符串,如下所示,a、b、c、d、e五个元素从左到右组成了一个有序的列表,列表中的…

微软史诗级的蓝屏

本周经历了微软的蓝屏,一直到周末还在加班处理公司的问题。 个人终端受到的影响较大,服务器上也受到了影响。因为蓝屏的事情导致不少麻烦,据同事说因为蓝屏的问题,MGH 的手术安排也受到了影响。 目前我们也在着手处理有部署 Wind…

基于SpringBoot+Vue的网吧管理系统(带1w+文档)

基于SpringBootVue的网吧管理系统(带1w文档) 基于SpringBootVue的网吧管理系统(带1w文档) 网吧管理系统,为了随时随地查看网吧管理信息提供了便捷的方法,更重要的是大大的简化了管理员管理网吧的方式方法,更提供了其他想要了解网吧管理信息及…

【云原生】Prometheus 服务自动发现使用详解

目录 一、前言 二、Prometheus常规服务监控使用现状​​​​​​​ 2.1 Prometheus监控架构图 2.2 Prometheus服务自动发现的解决方案 三、Prometheus服务自动发现介绍 3.1 什么是Prometheus服务自动发现 3.2 Prometheus自动服务发现策略 3.3 Prometheus自动服务发现应用…

SQL39道常见题型

SQL1 查询所有列 现在运营想要查看用户信息表中所有的数据,请你取出相应结果。 select * from user_profile 结果: SQL2 查询多列 还是上面那个输入,题目换成:现在运营同学想要用户的设备id对应的性别、年龄和学校的数据&#…

Springboot同时支持http和https访问

springboot默认是http的 一、支持https访问 需要生成证书,并配置到项目中。 1、证书 如果公司提供,则直接使用公司提供的证书; 如果公司没有提供,也可自己使用Java自带的命令keytool来生成: (1&#x…

Flink History Server配置

目录 问题复现 History Server配置 HADOOP_CLASSPATH配置 History Server配置 问题修复 启动flink集群 启动Histroty Server 问题复现 在bigdata111上执行如下命令开启socket: nc -lk 9999 如图: 在bigdata111上执行如下命令运行flink应用程序 …

手动构建线性回归(PyTorch)

import torch from sklearn.datasets import make_regression import matplotlib.pyplot as plt import random #1.构建数据 #构建数据集 def create_dataset():x,y,coefmake_regression(n_samples100,n_features1,random_state0,noise10,coefTrue,bias14.5)#将构建数据转换为张…

Linux系统命令:监控 CPU 性能的工具mpstat详解

目录 一、概述 二、语法和使用 1、基本语法 2、常用选项 三、安装 mpstat 1、Debian(如 Ubuntu)的系统安装 2、CentOS 或 Fedora系统的安装 (1)安装指令 (2)安装操作 3、使用 四、示例 1. 查看…

【人工智能】Python实现文本转换为语音:使用gTTS库实现

🔥 个人主页:空白诗 文章目录 一、引言二、准备工作三、使用gTTS实现文本转换为语音详细步骤 四、人工智能与TTS技术五、总结 一、引言 文本转换为语音(Text-to-Speech,简称TTS)技术是人工智能的重要组成部分&#xf…

Unity UGUI 之 Canvas画布

本文仅作学习笔记与交流,不作任何商业用途 本文包括但不限于unity官方手册,唐老狮,麦扣教程知识,引用会标记,如有不足还请斧正 1.UGUI是什么 首先官方手册导向了这两个连接,里面是ugui的基本教程 帆布 |U…

【C语言】 链表实现学生管理系统(堆区开辟空间)

总体思路都能写出来,问题是感觉稍微比之前的麻烦一些,在刚开始创建结构体的时候,并没有去按照链表的思路去写,导致写成了顺序表,后面就一直纠结空间怎么开辟。 链表是由一个头节点和其它申请出来的小节点连起来的&…

统计一个页面用到的html,css,js

<!DOCTYPE html> <html lang"zh-CN"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>统计html</title><style>* {margin: …

Web前端知识视频教程分享(四) jQuery

资料下载地址: https://545c.com/f/45573183-1334618723-883dfe?p7526 (访问密码: 7526)

【有效验证】解决SQLyog连接MYSQL的错误 1251 - Client does not support

目录 一、原因分析&#xff1a; 二、进入到mysql 三、查看当前加密方式 四、更改加密方式 五、查看是否成功 前言&#xff1a;使用一个开源软件使用sqlyog、navcat都报1251错误&#xff0c;网上都是提示升级客户端&#xff0c;还有一种就是修改mysql配置。本文就是修改配置…

虚拟机OP的LAN网口设置

问题&#xff1a;unraid通过虚拟机安装OP&#xff0c;然而一个网口连接路由器&#xff0c;总是无法为其他设备提供DHCP&#xff0c;导致无法使用。 一、虚拟机OP配置 二、OP内部配置 对于Lan网口&#xff0c;启用强制&#xff0c;这样可以防止OP被网口接的路由器产生冲突 三、…

认识接口测试

接口测试为什么重要&#xff1f; 我相信你一定听说过这样一句话&#xff1a;“测试要尽早介入&#xff0c;测试进行得越早&#xff0c;软件开发的成本就越低&#xff0c;就越能更好地保证软件质量。” 但是如何尽早地进入测试&#xff0c;作为软件测试的你&#xff0c;是不是…

web自动化测试

自动化测试理论 UI&#xff1a;User Interface&#xff08;用户接口-用户界面&#xff09;&#xff0c;主要包括&#xff1a;app、web ui自动化测试&#xff1a;使用工具或代码执行用例的过程 什么样的项目适合做自动化 1、需要回归测试项目&#xff08;甲方自营项目、金融、…