一文看尽2018全年计算机视觉大突破

640?wx_fmt=jpeg

来源:极市平台

摘要:计算机视觉领域同样精彩纷呈,与四年前相比GAN生成的假脸逼真到让人不敢相信;新工具、新框架的出现,也让这个领域的明天特别让人期待……


2018,仍是AI领域激动人心的一年。


计算机视觉领域同样精彩纷呈,与四年前相比GAN生成的假脸逼真到让人不敢相信;新工具、新框架的出现,也让这个领域的明天特别让人期待……


近日,Analytics Vidhya发布了一份2018人工智能技术总结与2019趋势预测报告,原文作者PRANAV DAR。这份报告总结和梳理了全年主要AI技术领域的重大进展,同时也给出了相关的资源地址,以便大家更好的使用、查询。


重点为大家介绍这份报告中的两个部分:

计算机视觉

工具和库


下面,我们就逐一来盘点和展望。


计算机视觉



今年,无论是图像还是视频方向都有大量新研究问世,有三大研究曾在CV圈掀起了集体波澜。


BigGAN


今年9月,当搭载BigGAN的双盲评审中的ICLR 2019论文现身,行家们就沸腾了:简直看不出这是GAN自己生成的。


640?wx_fmt=jpeg

640?wx_fmt=jpeg


在计算机图像研究史上,BigGAN的效果比前人进步了一大截。比如在ImageNet上进行128×128分辨率的训练后,它的Inception Score(IS)得分166.3,是之前最佳得分52.52分3倍。


除了搞定128×128小图之外,BigGAN还能直接在256×256、512×512的ImageNet数据上训练,生成更让人信服的样本。


640?wx_fmt=jpeg


在论文中研究人员揭秘,BigGAN的惊人效果背后,真的付出了金钱的代价,最多要用512个TPU训练,费用可达11万美元,合人民币76万元。


不止是模型参数多,训练规模也是有GAN以来最大的。它的参数是前人的2-4倍,批次大小是前人的8倍。


研究论文:
https://openreview.net/pdf?id=B1xsqj09Fm


Fast.ai 18分钟训练整个ImageNet


在完整的ImageNet上训练一个模型需要多久?各大公司不断下血本刷新着记录。


不过,也有不那么烧计算资源的平民版。


今年8月,在线深度学习课程Fast.ai的创始人Jeremy Howard和自己的学生,用租来的亚马逊AWS的云计算资源,18分钟在ImageNet上将图像分类模型训练到了93%的准确率。


640?wx_fmt=jpeg


前前后后,Fast.ai团队只用了16个AWS云实例,每个实例搭载8块英伟达V100 GPU,结果比Google用TPU Pod在斯坦福DAWNBench测试上达到的速度还要快40%。


这样拔群的成绩,成本价只需要40美元,Fast.ai在博客中将其称作人人可实现。


640?wx_fmt=jpeg

Fast.ai博客介绍:
https://www.fast.ai/2018/08/10/fastai-diu-imagenet/


vid2vid技术


今年8月,英伟达和MIT的研究团队高出一个超逼真高清视频生成AI。


只要一幅动态的语义地图,就可获得和真实世界几乎一模一样的视频。换句话说,只要把你心中的场景勾勒出来,无需实拍,电影级的视频就可以自动P出来:


640?wx_fmt=gif


除了街景,人脸也可生成:


640?wx_fmt=gif


这背后的vid2vid技术,是一种在生成对抗性学习框架下的新方法:精心设计的生成器和鉴别器架构,再加上时空对抗目标。


这种方法可以在分割蒙版、素描草图、人体姿势等多种输入格式上,实现高分辨率、逼真、时间相干的视频效果。


好消息,vid2vid现已被英伟达开源。


研究论文:
https://tcwang0509.github.io/vid2vid/paper_vid2vid.pdf

GitHub地址:
https://github.com/NVIDIA/vid2vid


2019趋势展望


Analytics Vidhya预计,明年在计算机视觉领域,对现有方法的改进和增强的研究可能多于创造新方法。


在美国,政府对无人机的限令可能会稍微“松绑”,开放程度可能增加。而今年大火的自监督学习明年可能会应用到更多研究中。


Analytics Vidhya对视觉领域也有一些期待,目前来看,在CVPR和ICML等国际顶会上公布最新研究成果,在工业界的应用情况还不乐观。他希望在2019年,能看到更多的研究在实际场景中落地。


Analytics Vidhya预计,视觉问答(Visual Question Answering,VQA)技术和视觉对话系统可能会在各种实际应用中首次亮相。


640?wx_fmt=gif


工具和框架



哪种工具最好?哪个框架代表了未来?这都是一个个能永远争论下去的话题。


没有异议的是,不管争辩的结果是什么,我们都需要掌握和了解最新的工具,否则就有可能被行业所抛弃。


今年,机器学习领域的工具和框架仍在快速的发展,下面就是这方面的总结和展望。

PyTorch 1.0


640?wx_fmt=jpeg


根据10月GitHub发布的2018年度报告,PyTorch在增长最快的开源项目排行上,名列第二。也是唯一入围的深度学习框架。


作为谷歌TensorFlow最大的“劲敌”,PyTorch其实是一个新兵,2017年1月19日才正式发布。2018年5月,PyTorch和Caffe2整合,成为新一代PyTorch 1.0,竞争力更进一步。


相较而言,PyTorch速度快而且非常灵活,在GitHub上有越来越多的开码都采用了PyTorch框架。可以预见,明年PyTorch会更加普及。


至于PyTorch和TensorFlow怎么选择?在我们之前发过的一篇报道里,不少大佬站PyTorch。


实际上,两个框架越来越像。前Google Brain深度学习研究员,Denny Britz认为,大多数情况下,选择哪一个深度学习框架,其实影响没那么大。


PyTorch官网:
https://pytorch.org/


AutoML


很多人将AutoML称为深度学习的新方式,认为它改变了整个系统。有了AutoML,我们就不再需要设计复杂的深度学习网络。


今年1月17日,谷歌推出Cloud AutoML服务,把自家的AutoML技术通过云平台对外发布,即便你不懂机器学习,也能训练出一个定制化的机器学习模型。


不过AutoML并不是谷歌的专利。过去几年,很多公司都在涉足这个领域,比方国外有RapidMiner、KNIME、DataRobot和H2O.ai等等。


除了这些公司的产品,还有一个开源库要介绍给大家:


Auto Keras!


这是一个用于执行AutoML任务的开源库,意在让更多人即便没有人工智能的专家背景,也能搞定机器学习这件事。


640?wx_fmt=jpeg


这个库的作者是美国德州农工大学(Texas A&M University)助理教授胡侠和他的两名博士生:金海峰、Qingquan Song。Auto Keras直击谷歌AutoML的三大缺陷:


第一,还得付钱。

第二,因为在云上,还得配置Docker容器和Kubernetes。

第三,服务商(Google)保证不了你数据安全和隐私。


官网:
https://autokeras.com/

GitHub:
https://github.com/jhfjhfj1/autokeras


TensorFlow.js


今年3月底的TensorFlow开发者会峰会2018上,TensorFlow.js正式发布。


这是一个面向JavaScript开发者的机器学习框架,可以完全在浏览器中定义和训练模型,也能导入离线训练的TensorFlow和Keras模型进行预测,还对WebGL实现无缝支持。


在浏览器中使用TensorFlow.js可以扩展更多的应用场景,包括展开交互式的机器学习、所有数据都保存在客户端的情况等。


640?wx_fmt=jpeg


实际上,这个新发布的TensorFlow.js,就是基于之前的deeplearn.js,只不过被整合进TensorFlow之中。


谷歌还给了几个TensorFlow.js的应用案例。比如借用你的摄像头,来玩经典游戏:吃豆人(Pac-Man)。


官网:
https://js.tensorflow.org/


2019趋势展望


在工具这个主题中,最受关注的就是AutoML。因为这是一个真正会改变游戏规则的核心技术。在此,引用H2O.ai的大神Marios Michailidis(KazAnova)对明年AutoML领域的展望。


以智能可视化、提供洞见等方式,帮助描述和理解数据

为数据集发现、构建、提取更好的特征

快速构建更强大、更智能的预测模型

通过机器学习可解释性,弥补黑盒建模带来的差距

推动这些模型的产生


未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。


未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。


  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”


640?wx_fmt=jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/493043.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

leetcode BFS(python+c++)

1.最小基因变化 思路:bfs搜索回溯 python: class Solution:def minMutation(self, start: str, end: str, bank: List[str]) -> int:library [A,C, G,T]queue [start]num 0vis set()while queue:size len(queue)for i in range(size):cur queue.pop(0)i…

北欧小国的宏大AI实验: 让1%的人口接受人工智能培训

编译: 机器之能 微胖摘要:芬兰希望在人工智能的实际应用方面占据一席之地,成为世界领先国家。2017 年 10 月,芬兰成为欧盟第一个将国家人工智能战略付诸实施的国家。在 2018 年 6 月发布的第二份报告中,政府估计&#…

形象理解矩阵操作

1.矩阵和向量线性变换 线性变换可看着是对空间的挤压伸展。 也就是看成把向量中的值对矩阵列向量加权 ,在对向量求和 2.矩阵和矩阵的线性变换 矩阵左乘就是对行向量操作,矩阵右乘就是对列向量操作. 可以将其中一个矩阵看成是多个列向量,在拆开对剩下矩…

CSAPP-计算机漫游

一.编译系统的工作流程: test.cpp #include <iostream> using namespace std; int main() { //hahha cout<<"hello world"<<endl; return 0; }直接生成可执行程序test g -o test test.cpp 深入解析生成可执行程序test的过程 1.g -E test.cpp &…

报告:下一代技术革命“AI”来袭

来源&#xff1a;199IT互联网数据中心摘要&#xff1a;Rolandberger发布了新报告“下一代技术革命‘AI’来袭”&#xff0c;分析了人们是否准备好迎接下一代技术革命。快进到2017年&#xff0c;我们正处于人工智能&#xff08;AI&#xff09;革命的风口浪尖。它会影响经济、工业…

CSAPP--信息的表示与处理

虚拟地址空间: 大多数 Intel 兼容机采用小端模式,IBM 和 Sun 公司的机器大多数机器采用大端法。 对于很多新的处理器,支持双端法,可以配置成大端或者小端运行。例如基于 ARM 架构的处理器,支持双端法,但是 Android 系统和 iOS 系统却只能运行在小端模式. 下面是代码测试,获取1…

各国自动驾驶政策概况及特征

来源&#xff1a;中国信息通信研究院CAICT摘要&#xff1a;主要国家自动驾驶技术的研发、测试、法规、政策等方面的储备和进展。近年来&#xff0c;美、欧、日等发达国家和地区将自动驾驶技术作为交通未来发展的重要方向&#xff0c;在技术研发、道路测试、标准法规、政策等方面…

CSAPP--整数的表示

一.非负数与负数编码以及最值 非负数编码: 负数编码&#xff08;采用补码即原码取反1&#xff09;: 故对于四位补码&#xff0c;最大值为7,最小值为-8 所以各类型负数/非负数范围: 不同字节无符号最大值 不同字节有符号最大值 不同字节有符号最小值 例子1:有符号强制转换无…

一文看懂全球半导体格局

来源&#xff1a;华泰证券中国半导体产业链渐趋完善&#xff0c;产业生态体系逐步成形目前我国垂直分工模式的芯片产业链初步搭建成形&#xff0c;产业上中下游已然打通&#xff0c;涌现出一批实力较强的代表性本土企业。集成电路是基础性、先导性产业&#xff0c;涉及国家信息…

【转载】徐小平techCrunch演讲:创业者要找到跟你同生共死的伙伴!

本文转载自微信&#xff0c; 地址&#xff1a;http://mp.weixin.qq.com/s?__bizMjM5NDk5MTA0MQ&mid200587915&idx1&sn05dde952f177c88dfb05a3d35f7fe36f&scene1&fromsinglemessage&isappinstalled0#rd “我经常说两句话。不要用兄弟情谊来追求共同利益…

牛顿差值多项式

实验题目&#xff1a;Newton插值多项式相关知识&#xff1a; 通过n1个节点的次数不超过n的Newton插值多项式为&#xff1a; x 0 10 20 30 40 50 60 70 80 90 100 110 120 y 5 1 7.5 3 4.5 8.8 15.5 6.5 -5 -10 -2 4.5 7 #include <iostream>…

Easyspy网络检测系统

Easyspy是一款网络入侵检测和流量实时监控软件。作为一个入侵检测系统&#xff0c;用来快速发现并定位诸如ARP攻击、DOS/DDOS、分片IP报文攻击等恶意攻击行为&#xff0c;帮助发现潜在的安全隐患。Easyspy又是一款Sniffer软件&#xff0c;用来进行故障诊断&#xff0c;快速排查…

复杂性研究简介——从西蒙到霍兰

来源&#xff1a;信息系统论坛摘要&#xff1a;复杂性研究&#xff08;Complexity Study&#xff09;是上世纪末以来逐步兴起的一股思潮。本文将基于我们自己的认识过程&#xff0c;对于这个值得关注的领域进行简要的介绍&#xff0c;希望能够引起更多朋友的关注。重点是对于赫…

CSAPP--整数的运算

一.无符号数加法运算 二.有符号数加法运算 三.无符号数乘法 截断w位也就是对2^w取模 四.有符号数&#xff08;补码表示&#xff09;乘法 换算成补码在进行乘法运算 参考&#xff1a; 【合集】CSAPP-深入理解计算机系统_哔哩哔哩_bilibili

验证occ和vtk整合工作的demo

在编译occ通过过后&#xff0c;我需要验证occ是否能够正常结合vtk进行开发工作 使用CMake进行环境变量设置&#xff1a; CMakeList.txt PROJECT (IGESReader)#VTK Part: FIND_PACKAGE(VTK) IF (VTK_FOUND)INCLUDE(${VTK_USE_FILE}) ELSE(VTK_FOUND)MESSAGE(FATAL_ERROR"Ca…

CSAPP--浮点数

一.定点表示小数 缺点:表示不了很大的数 二.IEEE关于浮点数表示法 float32:符号位1位&#xff0c;阶码字段:8位,小数点为23位 float64:符号位1位&#xff0c;阶码字段:11位,小数点为52位 三.浮点数的数值类型 1.规格化值 2.非规格值 3.特殊值 而阶码的值决定其属于那一类…

干货|一文看懂美国共享出行3大领域8大头部玩家

来源&#xff1a;42号车库摘要&#xff1a;年初某机构统计的滴滴、Uber、Lyft、Grab和Go-jek全球五大共享出行服务平台的总估值1290亿美元。12月中旬&#xff0c;Uber、Lyft先后宣布即将于2019年IPO。其中&#xff0c;Uber的估值高达1000-1200亿美元&#xff0c;接近年初某机构…

《C++ Primer 4th》读书笔记 第7章-函数

原创文章&#xff0c;转载请注明出处&#xff1a;http://www.cnblogs.com/DayByDay/p/3912413.html 转载于:https://www.cnblogs.com/DayByDay/p/3912413.html

MSE与FC作用

一.MSE作用 在做super resolution的时候&#xff0c;如果用MSE&#xff0c;做出来的图片会非常的模糊&#xff0c;就是因为MSE是基于高斯分布假设&#xff0c;最后的结果会尽可能地靠近高斯分布最高的地方&#xff0c;使得结果不会太sharp。 二.FC作用 转载: 为什么回归问题用…

爆发的电池储能市场真相!年销量将超260亿美元

来源&#xff1a;智东西摘要&#xff1a;全面分析在集成领域以及其他形式的电池解决方案的开发和部署方面所取得的进展 。电池储能是非常灵活的&#xff0c;它可以进行快速部署&#xff0c; 且具有多种应用。 同时它能够产生大量价值流——更不用说电池价格比预期中下降得还要快…