计算机视觉已超越人类眼睛?腾讯优图与《科学》杂志全面解读

640?wx_fmt=jpeg

来源:  腾讯研究院

摘要:视觉是人类认知世界的重要组成部分,而计算机视觉作为人工智能的核心技术之一,近几年的发展现状如何?


视觉是人类认知世界的重要组成部分,而计算机视觉作为人工智能的核心技术之一,近几年的发展现状如何?


在目前的人类生活中有这样的应用?是否已经超越人类的眼睛?未来又将有怎样的发展前景?


近日,腾讯优图与《科学》(Science)杂志共同发布《Seeing is believing: R&D applications of computer vision》(眼见为实:计算机视觉的研发和应用)主题报告,通过全球计算机视觉领域的专家访谈,为大众带来当下计算机视觉技术发展的全面解读,也为即将到来的计算机视觉峰会拉开序幕。


眼见为实:计算机视觉研发和应用

 

人工智能 (AI) 曾经只是一种存在于科幻领域的科技,而现在,研究实验室已经不断研发出了各种应用AI 的日常产品。


AI技术的进步很大程度上得益于计算机视觉的发展。计算机视觉技术关注的是构建能够收集和处理视觉信息的软件。应用计算机视觉可以识别照片中的人物、读取X光片、进行工厂机器人系统的智能升级,但它的影响范围远不止于此。


大多数人都对自己的视觉习以为常,殊不知要拿起叉子或接住球,我们的大脑要进行大量的运算。计算机变得足够快速、强大和小巧来实现计算机视觉的实际应用,不过是这几年的事情。


最先进的计算机视觉技术要运用到深度学习,而深度学习是AI的一大领域,灵感来自于人脑。深度学习算法使用的人工神经网络(ANN),是指能够分析并相互传递信息的互相连接的节点层,与神经元的通信机制类似。


如果我们向神经网络展示一张自拍照,一层神经元将会识别类似于面部轮廓的粗线条;另一层神经元会关注五官之间的区域,例如眼睛到嘴巴的距离;还有其他神经元会负责观察耳朵的形状。藉此,该算法可判断出这是不是一张人物照片,甚至看出这人是谁。


“在大多数计算机视觉任务当中,神经网络都能轻而易举地生成最佳算法,”腾讯优图实验室杰出科学家贾佳亚说道。腾讯总部位于中国深圳,是互联网服务和产品、娱乐及人工智能的全球领导者。


640?wx_fmt=jpeg


像人工神经网络一样,计算机视觉技术工程师也在试图模仿人类视觉系统的运作机制。但是机器比人更有优势的一处是,它不需要像人类那样依赖可见光,还能使用传感器更清楚地看到世界。


“在人脸识别、图像分类等众多任务中,计算机视觉能比人类视觉完成的更优秀。但在其他需要推理的任务,计算机视觉还有很长的路要走。”贾佳亚表示,“人类能轻易明白物体彼此之间的关联,我们看到一张图就能编出一个故事。但计算机还远不能达到这种程度的理解能力和想象力。”


随着计算机视觉技术的不断发展,它将会带来更多新的发现。计算机视觉和 AI 都处于各自发展的初始阶段,还有很多东西值得探索。


计算机视觉技术的进步可能会推动AI 的迅猛发展,把科幻小说的情节全部变成现实——比如无人车、机器人管家,甚至远距离太空旅行。


在实践中学习:AI 的工作原理


跟大多数 AI 系统类似,计算机视觉需要学习浩如烟海的数据。研究人员查阅数据并根据其特征仔细为数据添加标签,这些特征就是他们希望 AI 去理解的东西。


就计算机视觉的任务而言,研究人员会收集成百上千的照片用于分析。加标签的数据会成为范例,据此训练 AI 进行分类或寻找规律。为了测试 AI 的学习效果,研究人员会展示新的、未加标签的图像,测试其是否能够正确分类。


除了要在收集、标注和筹备庞大资料的工作中投入人力外,另一个重要障碍就是运行训练算法需要的大量计算能力。


费用低廉的在线服务,让研究人员可以在云端训练算法,而无需为强大的计算机投入数千美元,不过,要得出训练结果仍需数小时甚至数日。


对着镜头微笑:图像和视频识别

 

人工神经网络领域最重要的进展之一出自 ImageNet。ImageNet收集了 1400 万标签图像并于2009年发布。


ImageNet挑战赛要求参赛者设计一个能够跟人类一样对照片进行分类的算法,但一直没有出现获胜者。直到2012年,一个使用深度学习算法的参赛队伍取得了显著优于以往尝试的结果。


人们与计算机视觉产生交互的最常见的几种方式包括图像自动标记和拍照面部识别等,都是基于ImageNet获胜的技术。这些应用有助进行网上购物可视化搜索、自动标注社交媒体照片等特定任务。


除了图像识别外,这项新科技也推动了照片编辑技术的发展。图像分割算法是计算机视觉的组成部分,可以帮助机器将一张图片分成不同的部分,例如识别背景和前景中的人物。用户可迅速编辑照片,达到专业修图的效果。


视觉识别能力目前也应用于视频。计算机视觉算法可以查看摄像机的视频流,并且标记重要部分,这样人们就无需反复回看长达数小时的视频。


了解视频中人物的情绪是一项研究人员正在开展的工作,不过有些机构已经率先采用了这类技术。例如坐落在中国东部浙江省的杭州第十一中学,正在尝试用摄像头追踪学生的课堂行为,这些摄像头被称为“慧眼”。


640?wx_fmt=jpeg


让机器人拥有正常视力

 

将2D 图像转化成3D 数据,带来了一系列不同的挑战以及众多的新机遇。给机器人赋予计算机视觉就是一个正在展现出前景的领域。


机器人在 20世纪 60年代开始投入制造业使用,这些装置可以提升重物,执行重复性任务,并且可以一次进行数小时的精确测量,从而轻松地胜过人类。


斯德哥尔摩 KTH 皇家理工学院的机器人学教授 Danica Kragic 说:“这一领域始终关注的是建造出那些可以完成人类无法完成任务的机器人。”


Kragic表示,因为人类有40% 的大脑致力于处理视觉信息,如果要创造能够模仿并参与我们世界的机器,了解它们在多大程度上需要视觉信息是非常重要的。“我们人类在做任何事情时都会自然而然地使用视觉反馈,” Kargic说。


能够处理视觉信息的机器可以在工厂中完成更复杂的工作,甚至进入了我们的家庭。某些技能(例如,拾取会因压力而改变形状的柔软物品)对机器人来说仍然是遥不可及的。


这是因为人类在观察时,获得的不仅仅是视觉信息;我们还会获得有关物体物理属性的线索,以及与之交互所需要的物理知识。机器需要能够收集这类信息,才能像人类一样毫不费力地穿行在物理世界中。


“在五官感觉当中,视觉是最重要的,因为它赋予了人类理解这个复杂世界的能力。”贾佳亚说,“同样地,计算机视觉就是为了让计算机能够像人类一样观察环境并能跟环境互动。”


赋予机器人能够更好地了解世界的传感器是该技术的下一个迭代,它可能让机器人完成在今天尚无法实现的任务。


即将上路:自动驾驶汽车


自动驾驶汽车是 AI 开发领域中获得资金最充裕、最受关注的领域之一,全面了解世界对于自动驾驶汽车(AV) 也是至关重要的。


除了摄像头,大多数无人驾驶汽车使用激光雷达、雷达、GPS 和感知算法进行导航。 


“我们使用的许多算法都来自计算机视觉,但现在它不仅仅是关于摄像头数据,”多伦多大学副教授兼优步多伦多高级技术集团负责人 Raquel Urtasun 介绍说。“我们想给汽车装上的,不仅仅是我们的眼睛。”


像优步这样的公司希望到 2020 年前能实现自动驾驶汽车上路和载客。


这些汽车只会在预先选定的路线上行驶,或需要有人坐在驾驶员座位上,以便在出现任何问题时能够手动接管。


这项技术最终的目标是实现真正自主,使得乘坐者除了注意路况外,还可以做其他活动。


Urtasun 表示,为了实现这一目标,需要在硬件和软件两方面都取得进步。


在硬件方面,激光雷达可能花费数万美元,这使得大规模部署成本太高;在软件方面,工程师需要找到一种方法来使 AI 具备归纳、区分不同物体的能力。


如果一个人类驾驶员在道路上看到一些出乎意料的东西(比如一条坠落的电源线),他们会知道应该绕过电线。而如果一辆自动驾驶汽车遇到训练中没有经历过的事情,它可能无法安全地做出反应。


Urtasun 表示,虽然自动驾驶汽车现在尚未迎来发展的黄金期,但她对自己在改进传感器和训练算法上的努力能够有效应用仍然充满希望。


Urtasun进一步介绍,幸运的是,“这项技术能够解决许多其他问题。”改进的激光雷达可以使地图测绘和土地调查更加准确,甚至配备传感器的非自动驾驶汽车也可以帮助改善交通状况。


特快专递:无人机


640?wx_fmt=jpeg


汽车不是研究人员唯一希望能够自动驾驶的东西:无人驾驶飞机也正在接受自动飞行的训练。无人机研究与自动驾驶汽车研究面临着同样的难题。


高质量的训练数据既困难又昂贵,不同的飞行方式意味着无人机需要接受不同的新场景训练,而且法规使得在某些领域难以进行测试。即使是曾经受过训练,飞行过程仍然会非常困难。


“任何尝试过控制无人机的人都知道这不是件容易的事情,”比利时研究型大学天主教鲁汶大学的教授 Tinne Tuytelaars 说道。


不过,与自动驾驶汽车不同,无人机犯错的成本更低。“如果一架无人机坠毁,”Tuytelaars 耸了耸肩,“也不是件什么大不了的事。”


无人机已经可以投入到诸如协助救灾和管道检查等的应用。有朝一日它们将会可以进行送货并提供载客服务。


像亚马逊和波音这样的公司已经在测试无人机,未来它们可能会像现在的邮递员那样投递包裹。


在某些情况下,多架无人机可能出现在同一个空域内,并且可以比人类飞行员更好地实现彼此间飞行的协调。使它们自动飞行意味着可以降低成本,将技术带到全世界更多人和公司的手中。


机器人医生

 

除了交通工具,计算机视觉给医疗领域带来的变化是最显著的。AI 算法已经可以比放射科医生更好地从医学影像中识别出病症,例如骨折和肺炎。


“大数据的爆发,尤其在医疗领域的爆发,意味着我们能获得更多的数据来进行研究。”西班牙奥维耶多大学计算机学系助理教授 BeatrizRemeseiro表示,“我们正在利用数据去解决比以往更复杂的难题。”


去年,谷歌宣布开发出新的图像识别算法,可用于检测糖尿病视网膜病变的迹象,这种病变如果不及时治疗会导致失明。


这种算法能媲美人类专家,可以在患者视网膜的照片中发现小动脉瘤,这种动脉瘤是病变的早期迹象。


2017年,腾讯也发布了一款用于医学领域的AI产品——腾讯觅影,能够通过扫描上消化道内镜图片筛查食管癌,对早期食管癌的识别准确率高达 90%。


目前,腾讯觅影已经应用于中国100多家医院,未来也将辅助诊断糖尿病视网膜病变、肺结节、宫颈癌及乳腺癌等。


其他运用 AI 技术的工具也被用来更早地发现中风,为患者提供更好的生存机会。美国食品和药物管理局最近宣布将简化流程,以便帮助 AI  产品更快地获得批准。


当然,这些工具并不会很快就替代医生,它们起到更多是顾问的作用,而非取代从业医师


计算机视觉可以提高工作效率,并使医生短缺地区的人们能得到更多医疗服务。这些创新技术也正在被用来最大限度地减少对人体的侵入性危害。


例如,CT 扫描比 X 射线能获取更多信息,但会使患者暴露在更大的辐射中。AI 则可以对X光片进行分析后,给医生提供相当于CT扫描的信息。


“医学影像是通过计算机视觉可以提供更多信息从而真正产生影响的领域,”康奈尔大学计算机科学系教授、谷歌研究所研究科学家 Ramin Zabih 表示。


“医学史已经证明,如果医师可以获得更多的数据,这可能意味着能更好地帮助到患者。”


远和近:边缘设备和航天器

 

所有这些领域都令人印象深刻,计算机视觉的未来会更加光明。即将开始影响该行业的最大变化之一,就是边缘设备——在两个网络的边界控制数据流转的硬件。


大多数 AI 处理需要在大型远程云服务器上完成,因为运行这些算法的计算密集程度很高。另一方面,人们制造了边缘设备,从而具有足够的处理能力能在本地完成工作。


随着像 Nvidia和Facebook这样的公司开始制造专门用于运行 AI的芯片,边缘设备正在变得越来越普遍。


这将可以实现更快、更安全的数据处理,并且能让用户通过自己的数据进行更多 AI 自定义训练,增加个人结果的定制程度。


“它将推动更多的创新,”总部位于加利福尼亚的 Movidius 公司前首席执行官 Remi El-Ouazzane表示,该公司为计算机视觉设计专用的低功耗处理器芯片。


目前 Remi El-Ouazzane也担任英特尔 AI 产品集团首席运营官,这是另一家生产半导体芯片和微处理器的加州科技公司。


El-Ouazzane 表示,从智能家居设备和监控摄像头到自动驾驶汽车,数十亿台设备都可以运用 AI 技术并在边缘设备上工作。


这还将创造能够找到失踪人员的技术(例如,通过扫描人群图像),或者可以在孩子睡觉前没有刷牙的时候能够提醒父母。


“问题不是‘能不能实现’,而是‘什么时候实现’。”他说。


在边缘设备的微世界之外,天文学家们也对计算机视觉特别感兴趣,他们从无尽太空中收集到大量数据集并进行研究。


Kaggle 是一个用于预测建模和分析竞赛的在线平台,在Kaggle上就有一个比赛利用深度学习和计算机视觉技术让研究人员能够通过观察天文图像发现更多关于支配我们宇宙的暗物质的相关信息。


此外,还有一个致力于通过 AI 促进探索太空的研究孵化器。前沿开发实验室 (FDL) 是美国航空航天局 (NASA) 与英特尔 AI、谷歌云、洛克希德和 IBM 等公司共同建立的合伙机构。


FDL将天文学家和计算机科学家带到了加利福尼亚州硅谷共同工作8周,解决诸如了解太阳耀斑、绘制月球地图和寻找小行星等问题。


根据 FDL 创始人之一 James Parr 的说法,如果没有计算机视觉,计划就无法成功。


事实上,位于美国加州帕萨迪纳的NASA 喷气推进实验室 (JPL) 对于摄像技术的发明起到了至关重要的作用,该技术影响了如今的大部分计算机视觉软件。


“计算机视觉与太空计划之间存在共生关系,” Parr 说。“但这个议题在太空行业的讨论度还不足够。”


太空探索将同样受到影响,因为AI 对于前往火星以及更远的地方至关重要。


太空旅行者和地球指挥中心之间的通信滞后意味着系统必须要能够做出自主决定,而这些决策很多都是由视觉数据来推动的。


“随着我们不断向外探索,我们需要机器人和自治系统为宇航员做好准备并提供协助、建造结构、定位并提取资源,” Parr 说。“这是发现和探索过程中激动人心的时刻。”


探索计算机视觉将如何改变地球上的生活,同样令人激动。随着 AI 扩展到更多领域并发展出新功能,它可能会遇到新的技术难题。但是,当我们回顾 AI 的历史时,给计算机提供视觉的能力可能是最重要的一项进步。拥有视力的机器将带领我们走向更光明的未来。


未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。


未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

640?wx_fmt=jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/494490.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ScrollView与TableView实现选择效果

在cocos2dx中,ScrollView与TableView都可以实现选择效果,其中ScrollView较为原始,TableView的格子大小可以不与winSize一样大。 ScrollView实现 #include "T25ScrollView.h" #include "AppMacros.h"CCScene* T25Scroll…

科学家发现新的人类脑细胞,或可解答一个难题

来源:中国生物技术网关于人类大脑最令人感兴趣的问题之一,也是神经科学家们最难回答的问题之一,就是到底是什么让我们的大脑与其他动物的大脑区别开来。Allen脑科学研究所的研究员Ed Lein博士说:“我们并不清楚是什么让人类大脑变…

【每日SQL打卡】​​​​​​​​​​​​​​​DAY 6丨统计各专业学生人数【难度中等】

活动介绍: 「数据仓库技术交流群」已经正式启动每日SQL打卡,帮助大家扎实基础,努力工作之余,别忘了自我提升。 欢迎报名和邀请小伙伴参与,一个人可能走得很快,但一群人会走得很远。 🍅题目汇总(…

五问智能教育未来发展:重点解决什么问题?

来源:人民日报日前,首届中国智能教育大会在北京举行,教育部有关负责人、人工智能专家和教育专家、一些地方政府及教育行政部门负责人、大中小学校长、教师和企业家等近1000人参加。与会代表认为,智能教育将会越来越多地影响每一个…

【每日SQL打卡】​​​​​​​​​​​​​​​DAY 6丨寻找用户推荐人【难度简单】

活动介绍: 「数据仓库技术交流群」已经正式启动每日SQL打卡,帮助大家扎实基础,努力工作之余,别忘了自我提升。 欢迎报名和邀请小伙伴参与,一个人可能走得很快,但一群人会走得很远。 🍅题目汇总(…

实现超级玛丽上下左右运动

用Cocos2dx实现超级玛丽&#xff0c;首先用帧循环定时器判断方向&#xff0c;再在类中实现运行以及判断是否能运动。 方向控制 void LayerGame::moveMario(float dt) { #ifdef WIN32short key;key GetKeyState(F);if (key < 0) _marioDir Common::RIGHT;key GetKeyStat…

【每日SQL打卡】​​​​​​​​​​​​​​​DAY 7丨大的国家【难度简单】

活动介绍&#xff1a; 「数据仓库技术交流群」已经正式启动每日SQL打卡&#xff0c;帮助大家扎实基础&#xff0c;努力工作之余&#xff0c;别忘了自我提升。 欢迎报名和邀请小伙伴参与&#xff0c;一个人可能走得很快&#xff0c;但一群人会走得很远。 &#x1f345;题目汇总(…

自动驾驶前沿报告!解密六大关键技术,全球人才分布

来源&#xff1a;智东西摘要&#xff1a;清华-中国工程院知识智能联合研究中心从技术、人才、应用和趋势的维度盘点自动驾驶的发展。从传统车企到新造车势力&#xff0c;再到互联网大佬&#xff0c;都在加注自动驾驶。自动驾驶既指向了更高效安全的交通运营系统&#xff0c;也意…

【每日SQL打卡】​​​​​​​​​​​​​​​DAY 7丨好友申请 I :总体通过率【难度简单】

活动介绍&#xff1a; 「数据仓库技术交流群」已经正式启动每日SQL打卡&#xff0c;帮助大家扎实基础&#xff0c;努力工作之余&#xff0c;别忘了自我提升。 欢迎报名和邀请小伙伴参与&#xff0c;一个人可能走得很快&#xff0c;但一群人会走得很远。 &#x1f345;题目汇总(…

边缘计算技术发展与对策研究

来源&#xff1a;5G作者&#xff1a;洪学海&#xff0c;中国科学院计算技术研究所&#xff0c;中国科学院计算机网络信息中心&#xff0c;研究员&#xff1b;汪洋&#xff0c;中国科学院计算机网络信息中心。未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能&a…

【每日SQL打卡】​​​​​​​​​​​​​​​DAY 7丨字节面试真题【难度困难】

活动介绍&#xff1a; 「数据仓库技术交流群」已经正式启动每日SQL打卡&#xff0c;帮助大家扎实基础&#xff0c;努力工作之余&#xff0c;别忘了自我提升。 欢迎报名和邀请小伙伴参与&#xff0c;一个人可能走得很快&#xff0c;但一群人会走得很远。 &#x1f345;题目汇总(…

发布 | 2018年中美智慧城市行业研究系列报告

来源&#xff1a;桥域咨询报告链接:https://pan.baidu.com/s/1fGrtzH0nLsldDvpE04DY6A 密码:q9q2未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能&#xff0c;互联网和脑科学交叉研究机构。未来智能实验室的主要工作包括&#xff1a;建立AI智能系统智商评测体…

【每日SQL打卡】​​​​​​​​​​​​​​​DAY 8丨判断三角形【难度简单】

活动介绍&#xff1a; 「数据仓库技术交流群」已经正式启动每日SQL打卡&#xff0c;帮助大家扎实基础&#xff0c;努力工作之余&#xff0c;别忘了自我提升。 欢迎报名和邀请小伙伴参与&#xff0c;一个人可能走得很快&#xff0c;但一群人会走得很远。 &#x1f345;题目汇总(…

【每日SQL打卡】​​​​​​​​​​​​​​​DAY 8丨平面上的最近距离【难度中等】

活动介绍&#xff1a; 「数据仓库技术交流群」已经正式启动每日SQL打卡&#xff0c;帮助大家扎实基础&#xff0c;努力工作之余&#xff0c;别忘了自我提升。 欢迎报名和邀请小伙伴参与&#xff0c;一个人可能走得很快&#xff0c;但一群人会走得很远。 &#x1f345;题目汇总(…

python实现统计你一共写了多少行代码

程序员要保证一定的代码量就必须勤奋的敲代码&#xff0c;但怎么知道自己一共写了多少代码呢&#xff0c;笔者用python写了个简单的脚本&#xff0c;遍历所有的.java,.cpp,.c文件的行数&#xff0c;但是正如大家所知&#xff0c;java生成了许多代码&#xff0c;所以有许多水分&…

工业机器人:四大家族垄断全球市场

来源&#xff1a;广发证券在世界工业机器人业界中&#xff0c;以瑞士的ABB、德国的库卡、日本的发那科和安川电机最为著名&#xff0c;并称工业机器人四大家族。全球机器人市场中&#xff0c;四大家族一直占据着重要位置&#xff0c;总市场份额一度超过50%以上。2015年以来由于…

【每日SQL打卡】​​​​​​​​​​​​​​​DAY 9丨平均工资:部门与公司比较【难度困难】

活动介绍&#xff1a; 「数据仓库技术交流群」已经正式启动每日SQL打卡&#xff0c;帮助大家扎实基础&#xff0c;努力工作之余&#xff0c;别忘了自我提升。 欢迎报名和邀请小伙伴参与&#xff0c;一个人可能走得很快&#xff0c;但一群人会走得很远。 &#x1f345;题目汇总(…

深度|全面了解一下这个世界上最奇葩的公司:Google!

来源&#xff1a;轮回的刻度2015年8月11日&#xff0c;Google公司架构调整的资讯与分析刷遍了朋友圈。这些数不胜数的文章&#xff0c;几乎都是这样这样一种基调&#xff1a;Google好像做了一件很重大的事情&#xff0c;但是谁也不清楚它为什么这么做。这个问题也困扰着我&…

【每日SQL打卡】​​​​​​​​​​​​​​​DAY 9丨有趣的电影【难度简单】

活动介绍&#xff1a; 「数据仓库技术交流群」已经正式启动每日SQL打卡&#xff0c;帮助大家扎实基础&#xff0c;努力工作之余&#xff0c;别忘了自我提升。 欢迎报名和邀请小伙伴参与&#xff0c;一个人可能走得很快&#xff0c;但一群人会走得很远。 &#x1f345;题目汇总(…

一文看懂机器人技术的发展史

来源&#xff1a;传感器技术机器人技术是综合了计算机、控制论、机构学、信息和传感技术、人工智能、仿生学等多学科而形成的高新技术&#xff0c;是当代研究十分活跃&#xff0c;应用日益广泛的领域。机器人应用情况&#xff0c;是一个国家工业自动化水平的重要标志。机器人并…