Facebook 正在研究新型 AI 系统,以自我视角与世界进行交互

21126ec2b951126b19c35b6d94ef4d58.png

来源:AI科技大本营(ID:rgznai100)

编译:禾木木

你是否能想象 AI 以第一人称视角来理解世界是什么样的呢?

未来,以第一人称视角理解世界的 AI 可以开启沉浸式体验的新时代。增强现实(AR)眼镜和虚拟现实(VR)耳机等设备在日常生活中,将会变得像智能手机一样普遍且有用。

想象一下,你的 AR 设备准确地显示了如何在架子鼓课上握住鼓棒,知道你完成一个食谱;帮助你找到丢失的钥匙,或是像全息图一样在你的记忆中重现。

为了构建这些新技术,人工智能需要像我们一样,可以从第一人称的角度理解世界并进行互动。在研究界,通常称为以自我为中心的感知。

然而,今天的计算机视觉系统通常是以第三人称视角来拍摄的数百万张照片或是在视频中学习,而相机只是动作的旁观者。

484e3f54afc8e7ad5d4e4ddf4f386c31.png

Facebook AI 推出 Ego4D

近日,Facebook AI 宣布推出 Ego4D,这是一个雄心勃勃的长期项目,为的就是解决以自我为中心的感知领域的研究挑战。

研究者汇集了一个由 9 个国家的 13 所大学和实验室组成的联盟,他们在野外收集了 700 多名参与者的日常生活,超过 2,200 小时的第一人称视频。

Ego4D 是一个具有多样性的大规模的以第一人称视角为中心的数据集。它由来自全球 9 个不同国家 74 个地点的 855 名独特参与者收集的 3025 小时视频组成。该项目汇集了 88 名国际财团的研究人员,以大幅提高公开的以自我为中心的数据规模,使其在录像时间方面比任何其他数据集都大 20 倍以上。

e7771b18e124cc1b8768ff510a7c2c33.png

AI 也可以体验第一视觉

Facebook 首席研究科学家克里斯汀·格劳曼 (Kristen Grauman) 表示,今天的计算机视觉系统不像人类那样与第一人称和第三人称视角相关联。

就像是,将计算机视觉系统绑在过山车上,即使它是根据从地面边线显示的数十万张过山车的图像或视频进行训练的,但是它也不知道它在看什么。

为了让人工智能系统能够像我们一样的方式与世界互动,人工智能领域需要发展到一种全新的第一人称感知范式,”格劳曼在一份声明中说。“这意味着人工智能在实时运动、交互和多感官观察的背景下,通过人眼理解日常生活活动。”

Facebook AI 还开发了五个以第一人称视觉体验为中心的基准挑战,这将推动未来 AI 助手向现实世界应用的发展。

例如,“我把钥匙放哪儿了?”“手机在哪里?”“有看到我的充电线吗?”这种场景别提有多熟悉了,几乎每天都会上场。

  • Ego4D 的第一个基准挑战是情景记忆(Episodic memory)。

关键就是什么时候发生的?AI 可以通过检索过去以自我为中心的视频中的关键时刻来回答自由形式的问题并扩展个人记忆。

你可以问 AI 助手各种各样的问题,例如:我把孩子最喜欢的泰迪熊放哪儿了?

  • 下一步就是进行预测:接下来可能会做什么?

人工智能可以理解佩戴者的行为会如何影响这个人未来的状态,比如这个人可能会移动到哪里,他们可能会触摸什么物体,或者他们接下来可能会从事什么活动。预测行动不仅需要认识到已经发生的事情,还需要展望未来,预测下一步行动。这样AI系统就可以在当下提供有用的指导。

例如,就在你想要再次准备向锅里加盐时,你的人工智能助手会赶紧通知你“等等,您已经加盐了”

  • 第三个挑战基准就是手-物之间的互动(Hand and object manipulation)也是难点和关键的一步,因为AI需要理解在做什么,如何做?

学习手如何与物体互动对于AI指导我们的日常生活至关重要。AI必须检测第一人称的人-物交互,识别抓取,并检测物体状态变化。这种推动力也受到机器人学习的推动,机器人可以通过视频中观察到的人们的经验间接获得经验。

因此,当你在烹饪一份食谱时,AI 助手可以指导你需要哪些配料,需要先做什么,了解你已经做了什么,指导你完成每一个关键步骤。

人类可以用声音来理解世界,未来的人工智能也要学会这种视听记录(Audio-visual diarization)。

如果你正在上一堂重要的课,但因收到的信息而分了心,你可以问AI:“教授把我们的试卷收上去之后,课堂讨论的主要话题是什么?”

  • 这个就是第四个挑战基准 - 视听分类

我正在与谁互动,如何互动?例如“如何在嘈杂的地方更好地听到别人说话的声音”

  • 社会互动(Social interaction)是 Ego4D 的最后一个方向。

除了识别视觉和声音提示外,理解社交互动是智能 AI 助手的核心。一个社交智能的 AI 会理解谁在和谁说话,谁在关注谁。

所以,下次参加晚宴时,即使再嘈杂,AI 助手可以帮助你专注于桌子对面和你说话的人在说什么。

以上这些基准挑战都是以第一人称视觉为中心的人工智能的基本构建模块,这将让 AI 不仅可以在现实世界中理解和互动,还可以在元宇宙中进行理解和交互,构成更有用的 AI 助手和其他未来创新的基础。

1a77004cc685b4dedf32373959a58561.png

解开真实数据集

基准和数据集在历史上被证明是人工智能行业创新的关键催化剂。毕竟,今天的 CV 系统几乎可以识别图像中的任何对象,它是建立在数据集和基准(例如 MNIST、COCO 和 ImageNet)之上的,它们为研究人员提供了一个用于研究真实世界图像的试验台。

但是以自我为中心的感知是一个全新的领域。我们不能使用昨天的工具来构建明天的创新。Ego4D 前所未有的规模和多样性对于引入下一代智能 AI 系统至关重要。

为了构建这个数据集,每所合作大学的团队向研究者分发了头戴式摄像头和其他可穿戴传感器,以便他们能够捕捉第一人称、无脚本视频。日常生活。

参与者从日常场景中录制大约8分钟的视频片段,例如杂货店购物、烹饪和边玩游戏边交谈以及与家人和朋友一起参与其他集体活动。

Ego4D 捕捉了佩戴摄像机的人在特定环境中选择注视的内容,用手或是面前的物体做了什么,以及他们如何以第一人称视觉与其他人进行互动。

与现有数据集相比,Ego4D 数据集提供了更大的场景、人物和活动的多样性,这增加了针对不同背景、种族、职业和年龄的人训练的模型的适用性。

b78f77723609750ee4b011a41a0a5d6b.png

Ego4D 及以后的下一步是什么?

Facebook AI 试图通过 Ego4D 项目打造一条全新的道路,以构建更智能、更具交互性和灵活性的计算机视觉系统。

随着人工智能对人们正常生活方式有了更深入的理解,它可以开始以前所未有的方式对交互体验进行情境化和个性化。

Grauman表示:“Ego4D 使人工智能有可能获得根植于物理和社会世界的知识,这些知识是通过生活在其中的人的第一人称视角收集的。”“由此开始,人工智能不仅会更好地了解周围的世界,有一天它可能还会实现个性化——它能知道你最喜欢的咖啡杯,或者为你的下一次家庭旅行指引路线。”

有了 Ego4D 的基准支持,配合上在全新数据集中的训练,AI 助手有可能以非常独特和有意义的方式提供很多的价值,例如,帮助回忆起最近与同事交谈中的关键信息,或者指导制作新的晚餐食谱,新的宜家家居等。

Facebook 表示,从这一系列工作中获得的价值将推动我们走向未来的现实。

玛丽皇后大学的人工智能研究员Mike Cook认为,“从积极的角度来说,至少就目前而言,这是一个非常棒的大型数据集。”

“但,这实际上并没有解决人工智能中的一个紧迫挑战或问题......除非你是一家想要销售可穿戴相机的科技公司。它确实告诉你更多关于Facebook的未来计划,但是......他们向它注入资金并不意味着它一定会变得重要。”

参考链接:

  • https://venturebeat.com/2021/10/14/facebook-introduces-dataset-and-benchmarks-to-make-ai-more-egocentric/

  • https://ai.facebook.com/blog/teaching-ai-to-perceive-the-world-through-your-eyes/

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

e44117e1f8232a3569a0ef6e9dc32d3f.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/483471.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

王道计算机网络 数据链路层整理 超详细版

数据链路层的基本概念 结点:主机、路由器 链路:网络中两个结点之间的物理通道,链路的传输介质主要有双绞线、光纤和微波。分为有线链路、无线链路。 数据链路:网络中两个结点之间的逻辑通道,把实现控制数据传输协议…

Linux之用户/组 管理

关机&重启命令 shutdown -h now立刻进行关机shutdown -h 11分钟后关机(shutdown默认等于shutdown -h 1) -h即halt shutdown -r now现在重新启动计算机 -r即reboot halt关机reboot重新启动计算机sync把内存数据同步到磁盘 再进行shutdown/reboot/halt命令在执行…

贝尔实验室:如何让6G成为通用技术

来源:B5G与6G通信作者:沃尔克齐格勒:贝尔实验室“6G leadership”首席架构师。塞波伊约拉:诺基亚企业业务(Nokia Enterprise)首席工程师。未来智能实验室的主要工作包括:建立AI智能系统智商评测…

王道计算机网络 计算机网络体系结构整理 超详细版

计算机网络的概念 计算机网络是 互连的、自治的 计算机系统的集合。 互连:互联互通 自治:无主从关系 计算机网络是一个将分散的、具有独立功能的计算机系统,通过通信设备和线路连接起来,由功能完善的软件实现资源共享和信息传递…

哥德尔的逻辑结构

来源:人机与认知实验室1920年代末,数学圈内的人们均认为所有数学问题都有一个确定的答案一一真或假。比如说,每个偶数均是两个质数之和,数学文献中称这个论断为哥德巴赫猜想。曾几何时,在传统认识中,人们认…

王道计算机组成原理 物理层整理 超详细版

数据通信 通信的目的是传送信息。 数据:传送信息的实体,通常是有意义的符号序列。 信号:数据的电气/电磁的表现,是数据在传输过程中的存在形式。 ​ 数字信号:代表消息的参数取值是离散的。 ​ 模拟信号&#xf…

威胁生存!科学家警告灾难性“气候临界点”已逼近

来源:中国新闻网 中新网10月26日电 综合报道,从联合国的一份报告草案中,科学家已发现多个灾难性的“气候临界点”。专家警告,临界点之间相互关联,可能产生连锁反应,成为一种生存威胁。据报道,根…

王道计算机网络 网络层整理 超详细版

网络层功能概述 主要任务是把分组从源端传到目的端,为分组交换网上的不同主机提供通信服务。网络层传输单位是数据报。 1、路由选择与分组转发 2、异构网络互联 3、拥塞控制 数据交换方式 电路交换 在进行数据传输时,两个结点之间必须先建立一条专用…

ios点击有300毫秒延迟,输入框必须重压或长按才能获取焦点唤起软键盘

以下方法主要针对在vue中的使用 // ios点击有300毫秒延迟 1. 安装依赖包cnpm install fastclick --save 2. 在 /src/main.js 中引入并使用import FastClick from fastclickFastClick.attach(document.body)// 输入框必须重压或长按才能获取焦点唤起软键盘 // 这是由于上面引入了…

Forerunner:首个面向“多未来”的推测执行技术

来源:微软研究院AI头条编者按:10月26-29日,系统领域的全球顶会 SOSP 2021 在线上举办。在本届大会上,微软亚洲研究院研究员陈洋、郭众鑫、李润怀(实习生,浙江大学)、陈硕、周礼栋、张宪以及浙江…

linux的基础知识——信号的概念

1.计算机信号的特点 \qquad简单;不能携带大量信息;满足某个特设条件才发送 2.信号的机制 \qquadA与B两个进程,A向B发送一个信号,此时B进程正在执行自己的程序,在收到信号时,会暂停程序的执行,先…

Gartner发布对2022年及以后IT组织和用户的十大预测

来源:Gartner中国编辑:蒲蒲Gartner于近日发布对2022年及以后的十大战略预测。Gartner的十大预测从三个方面探讨了企业和IT领导人在持续中断和不确定性中获得的经验教训。这三个方面分别是:朝以人为本的方向推进、努力提高韧性以及超越期望的能…

王道计算机网络 传输层整理 超详细版

传输层是主机才有的层次。 传输层的功能 1、传输层提供进程和进程之间的逻辑通信。(网络层提供主机之间的通信) 逻辑通信:传输层之间的通信好像是沿着水平方向传送数据,但事实上这两个传输层之间并没有一条水平方向的物理连接。…

这个最基本的生命细节才被揭开——25毫秒核孔穿梭

来源:生物通细胞中的所有蛋白质都是由复杂的分子机器组装而成的。这些核糖体的前体在细胞核中产生,然后通过所谓的核孔进入细胞。波恩大学和苏黎世联邦理工大学的研究人员首次在活细胞中拍摄了这个基本过程。他们的实验提高了对核糖体是如何产生的理解。…

计算机网络——基本介绍

1.计算机网络的概念 \qquad计算机网络是一个将分散的,具有独立功能的计算机系统,通过通信设备与线路连接起来,由功能完善的软件实现资源共享和信息传递的系统。 \qquad这里的计算机系统,也可以成为端系统,其包括但不限…

王道计算机网络 应用层整理 超详细版

应用层概述 应用层对应用程序的通信提供服务。 应用层协议定义: 应用进程交换的报文类型(请求/响应) 各种报文类型的语法,如报文中的各个字段及其详细描述。 字段的语义,即包含在字段中的信息的含义。 进程何时、…

Facebook正式改名Meta,一个元宇宙新纪元由此开始

All in Metaverse,扎克伯格豪赌一个未来。来源:硅星人文:Juny 编辑:Lianzi美西时间早上7点,硅谷的天刚蒙蒙亮。Facebook硅谷总部前公司标志牌被蒙上了一层幕布。工作人员在标志牌前拉起了屏障,静静等待着…

计算机网络——标准化工作及相关组织

1.标准的分类 \qquad法定标准:由权威机构制定的,正式的,合法的标准,比如OSI标准;事实标准:某些强势产品在经过时间之后,这些产品的协议和技术就成为了标准,比如TCP/IP协议。 2.标准…

AI学会灌水和造假!Google新研究揭露了AI现实应用的陷阱

来源:Google AI、新智元作者:Alex DAmour、atherine Heller今天,机器学习(ML)模型得到了大规模的使用,而且影响力也越来越大。然而,当它们被用于现实世界的领域时,往往表现出意想不到…

Vue封装下拉框组件时,为document绑定原生事件addEventlistener(click“),切换页面之后事件还未被摧毁...

1 <script>2 export default {3 props: ["lists"],4 data() {5 return {6 isactive: false,7 actveName: "",8 selContent: "请选择"9 }; 10 }, 11 mounted() { 12 console.log("我被创建了&q…