对话 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点

在这里插入图片描述

Project Astra 愿景之一:「系统不仅能在你说话时做出回应,还能在持续的过程中帮助你。」

近期,Google DeepMind 的 YouTube 频道采访了 Google DeepMind 研究主管格雷格·韦恩 (Greg Wayne)。

格雷格·韦恩的研究工作为 DeepMind 的诸多突破性成果做出了重要贡献,涵盖强化学习、神经网络架构搜索以及大型语言模型等领域。

本次访谈深入探讨了 Project Astra,这是一个探索未来通用人工智能助手能力的研究原型,旨在理解用户周围的世界。主持人与格雷格·韦恩共同探讨了该研究原型背后的灵感、当前的优势与局限性,以及未来的潜在应用场景。

我们精选了访谈的部分精彩内容,希望能给大家带来新的启发,enjoy~

在这里插入图片描述

Project Astra :与 Greg Wayne 一起探索通用 AI 助理

Project Astra:Exploring a Universal AI Assistant with Greg Wayne

主持人: Hannah Fry
受访者: Greg Wayne,Google DeepMind 研究主管

注:为便于阅读,本文内容已作精简,并非完整对话。你可以访问原文收听完整版播客。

在这里插入图片描述

建立在 Gemini 基础上,但又超越 Gemini 的 AI 助理

Hannah Fry: 欢迎回到 Google DeepMind The Podcast 。今天我们要介绍的是 Project Astra,一个正在突破通用 AI 助理界限的研究原型。Greg,欢迎回来。

Greg Wayne: 你好,Hannah。

Hannah Fry: 我们从头开始吧。什么是 Project Astra?

Greg Wayne: Project Astra 是一个旨在构建一个 拥有眼睛、耳朵和声音, 能够与你共处的 AI 助手的项目。它能伴随你到任何地方, 通过智能眼镜、手机或电脑, 观察你正在做的事情,并与你进行交流。

Hannah Fry: 就像一个坐在你肩膀上的小助手?

Greg Wayne: 是的,就像一只栖息在你肩膀上的鹦鹉,与你一起观察世界,并和你谈论它。

Hannah Fry: 只是比你更聪明。

Greg Wayne: 在某些方面是的。

Hannah Fry: 这与 Google Assistant 或 Gemini 有所不同。

Greg Wayne: 是的。旧版本的 Google Assistant 更像是一个用于控制你家或信息的系统。而 Project Astra 则能与你一起谈论世界。它建立在 Gemini 的基础上,Gemini 是其背后的智能核心,它既与 Gemini 协同工作,又可能 帮助塑造 Gemini,同时也受到 Gemini 的塑造。

Hannah Fry: Project Astra 仍然是一个研究原型,为什么现在要 demo 它?

Greg Wayne: 让公众参与这个过程是好事。人们应该了解实验室里正在开发什么,并提供反馈。这是一个共同创造的过程,它不仅仅是在实验室里进行的,也是与世界各地的用户合作进行的。

Hannah Fry: 所以有人在现实世界中尝试使用它了吗?

Greg Wayne: 是的,我们有一些值得信赖的测试者,他们是一些早期的采用者。

Hannah Fry: 人们用它来做什么?

Greg Wayne: 比如获取时尚建议。Project Astra 就像一个伙伴,可以问它「什么和这个搭配?我怎样才能看起来更时尚?」

「Astra 可以在后台运行,并在它认为合适的时候提醒你」

Hannah Fry: 但硬件方面呢?目前,它在你的智能手机上。最终会出现在眼镜上吗?

Greg Wayne: 是的, 智能眼镜上的体验是最亲密的, 也最令人惊叹的,因为你感觉自己得到了增强。但软件堆栈实际上与设备无关,它可以运行在手机、电脑或 VR 头显上。

Hannah Fry: 对于视力受损或失明的人来说,它也有潜在的好处。

Greg Wayne: 是的,这是我痴迷的事情。这项技术可以在很大程度上复制一个在世界上帮助他们的同伴。例如,你可以想象帮助那些难以识别情绪和面部表情的人。也可以用来训练自己,你可以练习理解面部表情,并让 Astra 给你反馈。当然还有 记忆力 ,当摄像头开启时,它会记住过去 10 分钟的图像和谈论的内容。我们也很兴奋的一点是 主动性,它会自己判断你有什么需要,然后在你没有指示的情况下提供帮助。 比如,它可以提醒你一些事情,「别忘了,你回家路上需要买这个。」

Hannah Fry: 所以你不需要主动打开它和它对话,它可以在后台运行, 并在它认为合适的时候提醒你。

Greg Wayne: 是的。比如你快要回家的时候,它会说,「别忘了你需要买橙汁,因为你今天早上喝完了。」

Astra 依然面临「鸡尾酒会问题」挑战

Hannah Fry: 你会经常需要纠正它吗?你会注意到一些小故障吗?

Greg Wayne: 是的。有时候它会说它看不见一些它明明能看见的东西。你会用某种方式影响它,说「你能看见」,它就会说,「是的,我能看见。」

Hannah Fry: 所以它容易被鼓励?

Greg Wayne: 是的。

Hannah Fry: 在哪些环境它会表现得不太好?

Greg Wayne: 在嘈杂的条件下,它很难区分不同的声音。 它会将其误认为是用户的语音。嘈杂的环境会使它感到困惑。

Hannah Fry: 当你说区分不同的声音时,是指波形本身吗?

Greg Wayne: 是的。这有一个老问题,叫鸡尾酒会问题,技术上被称为源分离。指的是将一个声音源与另一个声音源区分开来。

Hannah Fry: 我猜,这在某种程度上使 Project Astra 如此困难,但也赋予了它潜力。

Greg Wayne: 是的,它应该能够在更多背景信息下解决歧义。

Hannah Fry: 不同的语言呢?目前它只支持英语吗?

Greg Wayne: 它实际上是多语种的,精通大约 20 种语言,你甚至可以在同一对话中切换语言。

Hannah Fry: 这太神奇了。

Greg Wayne: 我对这个系统在语言学习方面的应用感到非常兴奋。比如,四处走走,然后问,「那是什么?」,让它像我在学校里那样教你。

「主动记忆」灵感来自动物

Hannah Fry: 如果你正在和它互动,那么它的底层到底发生了什么?有哪些不同的组件?

Greg Wayne: 首先,有一个应用程序,收集视频和音频。它连接到一个服务器,服务器上有视觉编码器和音频编码器。还有专门的音频系统,负责了解你何时停止说话。这些都与大型语言模型 Gemini 相邻。它们将来自这些感觉编码器的信息直接发送到 Gemini,然后 Gemini 做出回应。 还有一个叫做「智能体」的东西,它会获取视频和音频,调用搜索工具, 比如 Google Lens、Google Search 或 Google Maps,还有一个记忆系统。

Hannah Fry: 我尝试想象, 我们只是用它来识别一本书,就有计算机视觉、语音识别、大型语言模型、Google Search 在底层支持、还有你做出决策的代理层。 所有这些的回答几乎没有延迟。这真是非常复杂的事情。

Greg Wayne: 是的,非常复杂。很少有人能理解输入模型的数据。而且,为什么它会产生这样的结果,可能没有人真正理解。

Hannah Fry: 让我们来谈谈它的历史。在播客的第一季,你是第一集的嘉宾,当时你从动物王国中汲取灵感来研究智能。特别是,你向我们介绍了西丛鸦,以此来激发 AI 更复杂的记忆能力。我放一段当时的录音。

播放 Greg Wayne 之前的录音 :…… 拥有一个可以访问的庞大数据库,存储你做过和看过的事情,然后用它来指导你之后的有目标的行为——我饿了。我想现在吃一些虫子。我应该去哪里找?这是我们想要复制的东西……

Hannah Fry: 你们做到了吗?

Greg Wayne: (笑)你好,Project Astra。你能帮我找些虫子吗?

Hannah Fry: 这听起来很像你的橙汁例子,不是吗?

Greg Wayne: 这是一个主动记忆的例子。

视频是「原始通用人工智能」的连接纤维

Hannah Fry: 你的神经科学背景在多大程度上启发了 Project Astra?

Greg Wayne: 我们利用神经科学来了解我们何时做得足够好,可以思考 「记忆的真正含义是什么?」 . 另一方面,如果我们想要一些与人类兼容的东西,也许会朝着一种 更像我们,而不是直接的文本界面的智能形式发展。 例如,我对 Michael Tomasello 的工作很感兴趣,他认为,交流的基本前提是两个人在同一个地方,从而共同推断目标,然后进行协作。这正是我们在这项技术中建模的内容。

Hannah Fry: 这个项目的第一个火花来自哪里?它是什么时候开始的?

Greg Wayne: DeepMind 的 CEO Demis Hassabis 向公司提出了一个挑战,让我们思考什么是「原始通用人工智能」。我更倾向于智能的社会性。我认为我们可以将「原始通用人工智能」与一个有益的助手联系起来,其主要目标是为与之互动的人类带来好处。当我试图让它最终变得非常自然时,我逐渐开始认为 视频是系统最终的连接纤维(connecting tissue)。

Hannah Fry: 在这个过程中,有没有出现过大的突破?

Greg Wayne: 当时的一个主要发现是,我们意识到了「提示」的概念。 告诉系统它可以通过用户的摄像头看到世界,这给了它一种对事物的自我视角。 以前我们不太了解是否可以很好地提示多模态系统。

Hannah Fry: 这太有趣了。当提出要创建一个「原始通用人工智能」时,有人怀疑或不相信这种东西是可能实现的吗?

Greg Wayne: 是的。事后看来,AI 的发展很奇怪,因为它发展得太快了, 人们对理所当然的看法变化得太快了。 当时的人们对「系统是否真的能够理解世界」感到怀疑。我们甚至没有关于不同性能水平系统所需的数据量的基本知识。

Hannah Fry: 那么,有没有哪个时候你认为它不可能实现?

Greg Wayne: 没有。 我一直觉得它有可能实现。 有段时间我可能想放弃。我认为在 Gemini 出现之前有一段缓慢的时期,那段日子很艰难。但我从未动摇过它一定能实现的事实。

Hannah Fry: 我听说,在测试阶段,你们有一个 Project Astra 房间。那里发生了什么?

Greg Wayne: 我们在特别的房间里玩各种各样的游戏。那里有一个完整的酒吧,所以 Astra 可以帮你调酒。还有一个美术馆,你可以在屏幕上显示不同的画作,然后问一些关于艺术的问题。

Astra 系统的低延迟实现

Hannah Fry: 让我们更深入地了解 Astra 的幕后工作。延迟是一个非常关键的事情。你们是如何改进它的?

Greg Wayne: 我们改进了实际的视频流,通过应用程序更快地发送信息。我们总是处理图像,当视频进入视觉系统时,它总是尽可能快地运行。然后它与大型语言模型位于同一位置、同一组计算机中,因此它不必跨越国家或大陆进行调用。

Hannah Fry: 所以为了实现这种实时的理解,你必须将运行这些模型的计算机硬件物理地放置在一起?

Greg Wayne: 是的,绝对是这样。我们还有使用原生音频的想法。以前的系统都有文本识别系统。这个系统是直接接收音频的,因此它不需要二级系统。使用原生音频的一个简单效果是,它可以理解罕见的词或词的发音。最后一点是,团队在「端点检测」方面做了很多出色的工作, 它能准确地知道你何时停止说话。然后,它会在猜测,这是我将要说的话。当它发现用户真的已经说完话后,它会立即发送出去。

Hannah Fry: 预先猜测答案会是什么。

Greg Wayne: 是的。这很难。 我们的系统必须使用一些「语义理解」,因为它也对上下文和声音有一定的理解。

Hannah Fry: 你认为 Project Astra 是否能够推理?

Greg Wayne: 是的。它 **主要是通过神经网络内部结构进行推理,**以一种无法观察到的、非常复杂的方式。然后是它所产生的对话。它有时通过对话进行推理。

记忆机制与隐私保护

Hannah Fry: 现在,我想多和你谈谈记忆。它可以记住过去 10 分钟内发生的事情,对吗?

Greg Wayne: 是的, 大概是 10 分钟。 极限在于芯片上的内存。

Hannah Fry: 所以目前,它实际上就像一个录像机,记录了过去 10 分钟发生的一切。

Greg Wayne: 是的。还有一个二级系统,当你关闭系统时,它会提取对话,总结并提取相关的事实。

Hannah Fry: 它是如何决定哪些信息足够重要,值得记住?

Greg Wayne: 它有 启发式方法。 如果你要求它记住,它肯定会记住。否则,它会试图说,「用户是否表达了任何有趣的、或与用户已经表达过的偏好不同的偏好?」

Hannah Fry: 让我们来谈谈隐私问题。你们如何缓解这些隐私问题?

Greg Wayne: 主要标准之一是同意。 用户可以访问他们之前记录的数据,可以删除或查看存储的内容。

Hannah Fry: 用户的确最终会控制它了解自己的信息。

Greg Wayne: 是的。

Hannah Fry: DeepMind 的伦理学家 Iason Gabriel 的工作在多大程度上影响了你们的 Astra?

Greg Wayne: 我们和 Iason 谈了很多。我们也和他的团队一起做了很多工作。他们一直在调查模型和整个代理,探索它在不同情况下的表现。我们还有一层安全过滤器,防止用户受到伤害。

未来重点:主动视频交互和全双工对话

Hannah Fry: 那么,你们接下来的优先事项是什么?

Greg Wayne: 我对主动视频工作非常感兴趣。也就是说, 系统不仅能在你说话时做出回应,还能在持续的过程中帮助你。 例如,这属于为盲人提供视觉解释器的问题。当你四处走动时,因为你看不到,它会说,「小心那边的桌子」。它可以持续地引导你。我们还在音频输出方面做了很多工作,所谓的「全双工」。它可以同时处理听和说,这可能会有点烦人。 它可能会打断你。但它也更像自然的对话。 当你说话时,我可能会说,「嗯嗯」、「嗯嗯」,它在同时听和说。这是用来确认的语言的一部分。正如你所说,我们还会在推理、更深层次的记忆、反思等方面投入更多精力。当它调用工具进行更深入的查询和研究时,是的,还有太多事情需要做得更好。

Hannah Fry: 非常感谢你参与我们的节目,Greg。

Greg Wayne: 谢谢你,Hannah。

Hannah Fry: 我们对 AI 的期望变化之快真是奇怪。我们现在有了这个多模态代理的雏形。它能看、能听,能记忆、有上下文、能推理、能进行多语言实时对话。当然,它不是 AGI。但我们已经比两年前讨论的系统有了显著的飞跃。

原视频:https://www.youtube.com/watch?v=ctWfv4WUp2I
编译:施苏娜、傅丰元

在这里插入图片描述

更多 Voice Agent 学习笔记:

这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势

语音即入口:AI 语音交互如何重塑下一代智能应用

Gemini 2.0 来了,这些 Voice Agent 开发者早已开始探索……

帮助用户与 AI 实时练习口语,Speak 为何能估值 10 亿美元?丨Voice Agent 学习笔记

市场规模超 60 亿美元,语音如何改变对话式 AI?

2024 语音模型前沿研究整理,Voice Agent 开发者必读

从开发者工具转型 AI 呼叫中心,这家 Voice Agent 公司已服务 100+客户

WebRTC 创建者刚加入了 OpenAI,他是如何思考语音 AI 的未来?

人类级别语音 AI 路线图丨 Voice Agent 学习笔记

语音 AI 革命:未来,消费者更可能倾向于与 AI 沟通,而非人工客服

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/64433.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LunarVim安装

LunarVim以其丰富的功能和灵活的定制性,迅速在Nvim用户中流行开来。它不仅提供了一套完善的默认配置,还允许用户根据自己的需求进行深度定制。无论是自动补全、内置终端、文件浏览器,还是模糊查找、LSP支持、代码检测、格式化和调试&#xff…

高质量 Next.js 后台管理模板源码分享,开发者必备

高质量 Next.js后台管理模板源码分享,开发者必备 Taplox 是一个基于 Bootstrap 5 和 Next.js 构建的现代化后台管理模板和 UI 组件库。它不仅设计精美,还提供了一整套易用的工具,适合各种 Web 应用、管理系统和仪表盘项目。无论你是初学者还是…

开发场景中Java 集合的最佳选择

在 Java 开发中,集合类是处理数据的核心工具。合理选择集合,不仅可以提高代码效率,还能让代码更简洁。本篇文章将重点探讨 List、Set 和 Map 的适用场景及优缺点,帮助你在实际开发中找到最佳解决方案。 一、List:有序存…

Java包装类型的缓存

Java 基本数据类型的包装类型的大部分都用到了缓存机制来提升性能。 Byte,Short,Integer,Long 这 4 种包装类默认创建了数值 [-128,127] 的相应类型的缓存数据,Character 创建了数值在 [0,127] 范围的缓存数据,Boolean 直接返回 True or Fal…

工程师 - MinGW

MinGW Minimalist GNU for Windows,前身为mingw32,是一个免费开源的软件开发环境,从2010年开始项目停止并不再使用。后续提供MinGW-w64。 MinGW包括: - 移植到Windows上的GNU编译器集(GCC),包括C、C、ADA和…

EasyExcel(读取操作和填充操作)

文章目录 1.准备Read.xlsx(具有两个sheet)2.读取第一个sheet中的数据1.模板2.方法3.结果 3.读取所有sheet中的数据1.模板2.方法3.结果 EasyExcel填充1.简单填充1.准备 Fill01.xlsx2.无模版3.方法4.结果 2.列表填充1.准备 Fill02.xlsx2.模板3.方法4.结果 …

CKA认证 | Day7 K8s存储

第七章 Kubernetes存储 1、数据卷与数据持久卷 为什么需要数据卷? 容器中的文件在磁盘上是临时存放的,这给容器中运行比较重要的应用程序带来一些问题。 问题1:当容器升级或者崩溃时,kubelet会重建容器,容器内文件会…

关于JAVA方法值传递问题

1.1 前言 之前在学习C语言的时候,将实参传递给方法(或函数)的方式分为两种:值传递和引用传递,但在JAVA中只有值传递(颠覆认知,基础没学踏实) 参考文章:https://blog.csd…

Excel基础知识

一:数组 一行或者一列数据称为一维数组,多行多列称为二维数组,数组支持算术运算(如加减乘除等)。 行:{1,2,3,4} 数组中的每个值用逗号分隔列:{1;2;3;4} 数组中的每个值用分号分隔行列&#xf…

基于DIODES AP43781+PI3USB31531+PI3DPX1207C的USB-C PD Video 之全功能显示器连接端口方案

随着USB-C连接器和PD功能的出现,新一代USB-C PD PC显示器可以用作个人和专业PC工作环境的电源和数据集线器。 虽然USB-C PD显示器是唯一插入墙壁插座的交流电源输入设备,但它可以作为数据UFP(上游接口)连接到连接到TCD&#xff0…

gazebo_world 基本围墙。

如何使用&#xff1f; 参考gazebo harmonic的官方教程。 本人使用harmonic的template&#xff0c;在里面进行修改就可以分流畅地使用下去。 以下是world 文件. <?xml version"1.0" ?> <!--Try sending commands:gz topic -t "/model/diff_drive/…

解决无法在 Ubuntu 24.04 上运行 AppImage 应用

在 Ubuntu 24.04 中运行 AppImage 应用的完整指南 在 Ubuntu 24.04 中&#xff0c;许多用户可能会遇到 AppImage 应用无法启动的问题。即使你已经设置了正确的文件权限&#xff0c;AppImage 仍然拒绝运行。这通常是由于缺少必要的库文件所致。 问题根源&#xff1a;缺少 FUSE…

springboot配置oracle+达梦数据库多数据源配置并动态切换

项目场景&#xff1a; 在工作中很多情况需要跨数据库进行数据操作,自己总结的经验希望对各位有所帮助 问题描述 总结了几个问题 1.识别不到mapper 2.识别不到xml 3.找不到数据源 原因分析&#xff1a; 1.配置文件编写导致识别mapper 2.配置类编写建的格式有问题 3.命名…

html+css+js网页设计 美食 家美食1个页面

htmlcssjs网页设计 美食 家美食1个页面 网页作品代码简单&#xff0c;可使用任意HTML辑软件&#xff08;如&#xff1a;Dreamweaver、HBuilder、Vscode 、Sublime 、Webstorm、Text 、Notepad 等任意html编辑软件进行运行及修改编辑等操作&#xff09;。 获取源码 1&#xf…

【机器学习】【朴素贝叶斯分类器】从理论到实践:朴素贝叶斯分类器在垃圾短信过滤中的应用

&#x1f31f; 关于我 &#x1f31f; 大家好呀&#xff01;&#x1f44b; 我是一名大三在读学生&#xff0c;目前对人工智能领域充满了浓厚的兴趣&#xff0c;尤其是机器学习、深度学习和自然语言处理这些酷炫的技术&#xff01;&#x1f916;&#x1f4bb; 平时我喜欢动手做实…

Vue使用Tinymce 编辑器

目录 一、下载并重新组织tinymce结构二、使用三、遇到的坑 一、下载并重新组织tinymce结构 下载 npm install tinymce^7 or yarn add tinymce^7重构目录 在node_moudles里找到tinymce文件夹&#xff0c;把里面文件拷贝一份放到public下&#xff0c;如下&#xff1a; -- pub…

EMNLP'24 最佳论文解读 | 大语言模型的预训练数据检测:基于散度的校准方法

点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入&#xff01; 点击 阅读原文 观看作者讲解回放&#xff01; 作者简介 张伟超&#xff0c;中国科学院计算所网络数据科学与技术重点实验室三年级直博生 内容简介 近年来&#xff0c;大语言模型&#xff08;LLMs&#xff09;的…

大数据技术-Hadoop(一)Hadoop集群的安装与配置

目录 一、准备工作 1、安装jdk&#xff08;每个节点都执行&#xff09; 2、修改主机配置 &#xff08;每个节点都执行&#xff09; 3、配置ssh无密登录 &#xff08;每个节点都执行&#xff09; 二、安装Hadoop&#xff08;每个节点都执行&#xff09; 三、集群启动配置&a…

折腾日记:如何让吃灰笔记本发挥余热——搭建一个相册服务

背景 之前写过&#xff0c;我在家里用了一台旧的工作站笔记本做了服务器&#xff0c;连上一个绿联的5位硬盘盒实现简单的网盘功能&#xff0c;然而&#xff0c;还是觉的不太理想&#xff0c;比如使用filebrowser虽然可以备份文件和图片&#xff0c;当使用手机使用网页&#xf…

使用seata实现分布式事务管理

配置 版本说明&#xff1a;springCloud Alibaba组件版本关系 我用的是spring cloud Alibaba 2.2.1.RELEASE 、springboot 2.2.1.RELEASE、nacos 2.0.1、seata1.2.0,jdk1.8 seata 主要用于在分布式系统中对数据库进行事务回滚&#xff0c;保证全局事务的一致性。 seata的使用…