旷视张祥雨:从基础科研的「大」和「统一」,看视觉AI研究新趋势

0fc744465a44e138a978ff8103937157.jpeg

来源:机器之心

在 MegTech 2022 上,旷视研究院基础科研负责人张祥雨表示:“大”和 “统一” 是视觉 AI 基础研究的新趋势。

基础模型科研是 AI 创新突破的基石,每一代基础模型的突破都极大程度地促进了视觉 AI 的发展。7 月 15 日,2022 旷视技术开放日(MegTech 2022)在京举行,旷视研究院基础科研负责人张祥雨在会上分享了他对基础模型科研的深入思考及基础模型组的最新科研成果。

张祥雨表示,「“大”和 “统一” 是当今视觉 AI 基础研究的新趋势。同时,“在致力于解决人工智能最本质难题的道路上,旷视将秉持原创、实用和本质的科研价值观,重点深耕通用图像大模型、视频理解大模型等四个主要方向。」

8bc922c16e8673f5cd5a6f7dfcd0ac2c.jpeg

旷视研究院基础科研负责人张祥雨在旷视技术开放日上发表演讲

发挥 “大” 的威力,推进大模型、大算法与大应用协同发展

“大”主要指 AI 大模型,即利用大数据、大算力和大参数量,提高模型的表达能力,使得 AI 模型能够适用于多种任务、多种数据和多种应用场景。张祥雨指出,「“大”是提高 AI 系统性能的最重要捷径之一。这主要是因为,AI 视觉系统通常要面对复杂的应用场景和多种任务,提高模型性能的最直接途径就是提高模型本身的表达能力,也就是所谓的“大”。」

但在做 “大” 的过程中,随着模型参数量和数据量的增多,边际效应递减情形却时有发生。如张祥雨所言,“大并不一定代表着好,更大的模型会带来更大的计算开销,我们的收益将会非常有限。” 换言之,片面追求大参数量、大计算量和大数据量,并不一定能够得到性能更强的模型。视觉 AI 基础研究不仅需往 “大” 的方向努力,更要让 “大” 模型的优势能发挥出来,这是当今 AI 视觉研究主要的趋势和挑战之一。

b5a8aec6451bd019a4ace2f5f92f38bf.jpeg

AI 视觉研究面对着如何让 “大” 模型优势发挥出来的挑战

为此,旷视以创新算法充分发挥大数据、大算力威力,持续拓展 AI 认知边界,重新定义 “大” 的内涵:即大模型、大算法与大应用。

  • 大模型。要研究的不仅是如何实现“大”,更重要的是如何发挥大模型背后的威力;

  • 大算法。大模型需要大量基础设施、算法、算力做支持,要成功地将这些大模型、大算法、大算力及大数据整合起来,就要求研究者提出创新算法以充分发挥大模型的作用;

  • 大应用。大模型做出来以后,究竟能干什么?如何提高 AI 模型的生产效率?提高模型性能?

“统一”AI 系统设计,打造简单、强大、通用系统

近年来,包括基础模型研发、视觉基础应用、AI 算法演化等在内的研究领域都衍生出一系列算法,而这些算法正在底层走向统一。例如,在基础模型方面,过去有各种各样的 CNN 和 ViT 被提出来。但近年的研究表明,通过特定的优化算法能够在训练过程中增加先验,使得 CNN、ViT、MLP 都取得相似的性能,这就为“统一”AI 系统设计奠定了基础。

“统一”的好处是显而易见的。如果能用统一算法、统一模型来表示和建模各种数据、各种任务,研究界将可以得到简单、强大且通用的系统。张祥雨解释称,「一旦模型统一,AI 加速器的设计就会非常简单,一个模型可以适用于各种设备和各种任务,这可以极大地节省模型适配成本,且硬件计算平台厂商只用支持少量算子就能把大部分任务跑起来。」

但实现 “统一” 的挑战亦是显著的。比如,要实现在多个任务上共享一个模型、一个算法,就必须加深对系统及模型的认识以抽象出共性,才能使 “统一” 模型达到专为所有系统单独设计的模型所具有的性能。

为此,旷视认为“统一”AI 系统设计要从以下三方面着手:

  • 要统一架构。主要是指基础模型架构,也包括基本的计算架构;

  • 要统一算法。用尽可能统一的算法来支持各种任务、数据和平台,从纷繁的 AI 调参中解放出来;

  • 要统一认知。唯有从算法中抽取共性,理解本质,才能构建统一的、高性能的视觉 AI 系统。

立足四大重点方向,旷视秉持原创、实用与本质科研价值观

基于 “大” 和“统一”是当今视觉 AI 基础研究新趋势的判断,张祥雨在演讲中指出,旷视基础模型科研工作重点关注如下四个主要方向:

通用图像大模型。在这项研究中,旷视主要着眼于构建通用、统一、高性能的图像视觉大模型,解决如何高效变 “大” 的问题。如上所述,“大”不意味着好,故需要研究让 “大” 真正服务于 “性能提升、孵化应用” 的创新方法。

视频理解大模型。基于此方向,旷视期望在视频理解与视频建模问题上攻克困扰业界已久的长序列建模问题,并找到更高效的视频模型训练、监督和应用方法。

计算摄影大模型。当前,计算摄影常通过图像退化模式进行建模,实现高质量图像生成。这种建模思路不能使用、整合大数据的威力,也无法实现多模组、多设备、多数据之间的通用。因此,旷视希望找到计算摄影大模型研究的新范式,从大数据中找到充分的真实图像先验信息,进而指导我们生成更加高清、高质量的图像。

09983190270c5ed54824018e4f22a494.jpeg

基础模型科研需要坚持长期主义

自动驾驶感知大模型。在这项研究中,旷视主要着眼于研究简单、高效、统一且易于使用的自动驾驶模型的优化、训练和部署方法。

演讲尾声,张祥雨再次阐释了旷视基础模型科研始终秉持的科研价值观,“坚持长期主义,坚持原创、实用和本质的价值观。”他认为,只有立足原创,才能突破现有技术的认知边界;只有做到实用,才能把科研成果真正转化为产品,转化为实际可以落地的价值;只有发现本质,才能从纷繁的表象中看到模型背后的创新点,更好地实现 “大” 且“统一”的基础模型研发。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

478219f3d1e9ffa394ad91227360c682.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481800.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于位置的知识图谱链接预测

基于位置的知识图谱链接预测 人工智能技术与咨询 本文来自《中文信息学报》,作者张宁豫等 摘 要: 链接预测是知识图谱的补全和分析的基础。由于位置相关的实体和关系本身拥有丰富的位置特征,该文提出了一种基于位置的知识图谱链接预测方法。该方法首…

意识理论综述:众多竞争的意识理论如何相互关联?

来源: 集智俱乐部作者:Anil K. Seth & Tim Bayne译者:李路凯、陈斯信编辑:邓一雪 导语意识和底层的神经活动之间如何联系起来?试图解释这一问题的意识理论层出不穷。然而,随着实验数据积累,…

滑翔导弹末段多约束智能弹道规划

滑翔导弹末段多约束智能弹道规划 人工智能技术与咨询 来源:《光学精密工程》,作者邵会兵等 摘要:滑翔导弹末段飞行时空复杂度高、不确定性强、约束多,给弹道规划与制导算法带来了较大的建模和求解难度。针对这一问题&#xff0…

《时代》杂志:元宇宙时代将改变世界

来源:新智元元宇宙上了Time封面,有点官宣那味儿了!还在纠结会不会错过元宇宙和web3浪潮?清华大学科学史系副教授胡翌霖,这次给你讲个透!元宇宙——下一个数字时代将会改变一切。这是最新一期的Time杂志封面…

空战决策知识构建方法研究

空战决策知识构建方法研究 人工智能技术与咨询 本文来自《系统工程与电子技术》,作者吕跃等 0 引言 随着空战训练以及作战仿真实验的深入, 战训数据随之大量产生, 需要解决“数据丰富, 知识贫乏”的数据应用问题, 挖掘数据背后的空战决策知识, 客观说明“人在回路…

【学会双百讲堂】中国指挥与控制学会“百名专家、百场讲座”第七讲——城市大脑系列学术报告(第一期)...

来源:中国指挥与控制学会中国指挥与控制学会“百名专家、百场讲座”第七讲——城市大脑系列学术报告(第一期)主办单位:中国指挥与控制学会承办单位:中国指挥与控制学会城市大脑专业委员会远望智库北京邮电大学人工智能…

专家:人工智能开始对现实世界产生重大影响​​

专家:人工智能开始对现实世界产生重大影响 ​​人工智能技术与咨询​​ 本文摘自中国日报网 中国日报网11月8日电 据英国《卫报》报道,曾撰写过一本有关人工智能的权威教科书的美国科学家表示,在将人工智能的进步比作原子弹技术的发展时&…

普林斯顿陈丹琦:如何让「大模型」变小

来源:智源社区 整理:路啸秋审校:夏梦舟、钟泽轩(陈丹琦团队)导读:“Making large models smaller”这是很多语言模型研究人员的学术追求,针对大模型昂贵的环境和训练成本,陈丹琦在智…

数字化转型知识方法系列之:数字化转型的基本认识与参考架构

数字化转型知识方法系列之:数字化转型的基本认识与参考架构 人工智能技术与咨询 一、数字化转型是什么? 数字化转型是顺应新一轮科技革命和产业变革趋势,不断深化应用云计算、大数据、物联网、人工智能、区块链等新一代信息技术&#xff0…

ASML的EUV光刻机卖不动?

来源:万物智能视界缺芯让台积电、三星等厂商订单大增,而ASML作为光刻机供应商,也跟着收益。今年第一季度ASML的新增订单突破70亿欧元,第二季度的新增订单为85亿欧元。不过全球半导体市场从产能紧张已经转向过剩,部分领…

不用发论文也不教课的12名教授,为这个研究所拿下8次学界最高奖

法国高等科学研究所一角丨图片来源:CC BY-SA 3.0,https://commons.wikimedia.org/w/index.php?curid131812来源:Ars Technica作者:DHANANJAY KHADILKAR翻译:阿金编辑:魏潇本文经授权转载自微信公众号“科研圈”早在今…

基于图嵌入的兵棋联合作战态势实体知识表示学习方法

基于图嵌入的兵棋联合作战态势实体知识表示学习方法 人工智能技术与咨询 来源:《指挥控制与仿真》,作者王保魁等 摘 要:为将基于离散符号的兵棋联合作战态势实体知识表示为机器更加容易学习、处理和应用的形式,根据兵棋联合作战态势实体知识的特点,提…

张钹院士专访:人工智能永远在路上

来源: 瑞莱智慧RealAI新一代人工智能蓬勃兴起,各类应用加速落地,“人工智能”的本质到底是什么?今天,以数据驱动的人工智能在“奔跑”的道路又会遭遇哪些瓶颈问题?什么是第三代人工智能?它能让人…

人工智能支撑马赛克战机理研究

人工智能支撑马赛克战机理研究 人工智能技术与咨询 来源:《航空兵器》,作者付翔等 0 引言 近30年来, 随着信息化军事变革的兴起, 各种新的军事作战概念和作战理论层出不穷[1]。从20世纪90年代前后提出的“信息战”“空地一体战”“数字化部队”等, 到…

强化学习大牛Sergey Levine新作:三个大模型教会机器人认路

来源:机器之心内置大模型的机器人,在不看地图的情况下,学会了按照语言指令到达目的地,这项成果来自强化学习大牛 Sergey Levine 的新作。给定一个目的地,在没有导航轨迹的情况下顺利到达,有多难&#xff1f…

数字化转型知识方法系列之五:数字化转型战略

数字化转型知识方法系列之五:数字化转型战略 人工智能技术与咨询 一、数字化转型是信息时代企业级核心战略 新一轮科技革命和产业变革迅猛发展,企业发展环境日益复杂多变,机遇挑战并存。全球经济从增量发展转向存量竞争,资源…

再发:迄今为止 脑网络结构功能模块元素 最全面复杂清晰 类芯片多图及分解...

来源:CreateAMind从工程的角度来看,大脑皮层是一个六层电路卡,由晶体管和逻辑门组成,其密度是我们最紧凑的微处理器(Apple A8)的五倍。然后它被智能折叠起来以适应更小的空间,同时还减少了相互连…

量子计算机研究进展

量子计算机研究进展 人工智能技术与咨询 来自《南京邮电大学学报(自然科学版)》,作者郭光灿等 摘要:量子计算机是未来量子技术时代最具颠覆性的技术,文中将以量子计算机的诞生、工作原理和在世界范围内的发展现状为主要阐述内容。目前阶段…

意识理论综述:众多竞争的意识理论如何相互关联?(干货)

来源:集智俱乐部 作者:Anil K. Seth & Tim Bayne译者:李路凯、陈斯信编辑:邓一雪导语意识和底层的神经活动之间如何联系起来?试图解释这一问题的意识理论层出不穷。然而,随着实验数据积累,众…

数字化转型知识方法系列之三:以价值效益为导向推进数字化转型的五大重点任务

数字化转型知识方法系列之三:以价值效益为导向推进数字化转型的五大重点任务 人工智能技术与咨询 一、数字化转型应围绕价值效益系统性推进 新一轮科技革命和产业变革迅猛发展,世界正处在一个从工业时代向信息时代加速转型的大变革时代。全球物质经济发…