一文看尽2018全年计算机视觉大突破

640?wx_fmt=jpeg

来源:极市平台

摘要:计算机视觉领域同样精彩纷呈,与四年前相比GAN生成的假脸逼真到让人不敢相信;新工具、新框架的出现,也让这个领域的明天特别让人期待……


2018,仍是AI领域激动人心的一年。


计算机视觉领域同样精彩纷呈,与四年前相比GAN生成的假脸逼真到让人不敢相信;新工具、新框架的出现,也让这个领域的明天特别让人期待……


近日,Analytics Vidhya发布了一份2018人工智能技术总结与2019趋势预测报告,原文作者PRANAV DAR。这份报告总结和梳理了全年主要AI技术领域的重大进展,同时也给出了相关的资源地址,以便大家更好的使用、查询。


重点为大家介绍这份报告中的两个部分:

计算机视觉

工具和库


下面,我们就逐一来盘点和展望。


计算机视觉



今年,无论是图像还是视频方向都有大量新研究问世,有三大研究曾在CV圈掀起了集体波澜。


BigGAN


今年9月,当搭载BigGAN的双盲评审中的ICLR 2019论文现身,行家们就沸腾了:简直看不出这是GAN自己生成的。


640?wx_fmt=jpeg

640?wx_fmt=jpeg


在计算机图像研究史上,BigGAN的效果比前人进步了一大截。比如在ImageNet上进行128×128分辨率的训练后,它的Inception Score(IS)得分166.3,是之前最佳得分52.52分3倍。


除了搞定128×128小图之外,BigGAN还能直接在256×256、512×512的ImageNet数据上训练,生成更让人信服的样本。


640?wx_fmt=jpeg


在论文中研究人员揭秘,BigGAN的惊人效果背后,真的付出了金钱的代价,最多要用512个TPU训练,费用可达11万美元,合人民币76万元。


不止是模型参数多,训练规模也是有GAN以来最大的。它的参数是前人的2-4倍,批次大小是前人的8倍。


研究论文:
https://openreview.net/pdf?id=B1xsqj09Fm


Fast.ai 18分钟训练整个ImageNet


在完整的ImageNet上训练一个模型需要多久?各大公司不断下血本刷新着记录。


不过,也有不那么烧计算资源的平民版。


今年8月,在线深度学习课程Fast.ai的创始人Jeremy Howard和自己的学生,用租来的亚马逊AWS的云计算资源,18分钟在ImageNet上将图像分类模型训练到了93%的准确率。


640?wx_fmt=jpeg


前前后后,Fast.ai团队只用了16个AWS云实例,每个实例搭载8块英伟达V100 GPU,结果比Google用TPU Pod在斯坦福DAWNBench测试上达到的速度还要快40%。


这样拔群的成绩,成本价只需要40美元,Fast.ai在博客中将其称作人人可实现。


640?wx_fmt=jpeg

Fast.ai博客介绍:
https://www.fast.ai/2018/08/10/fastai-diu-imagenet/


vid2vid技术


今年8月,英伟达和MIT的研究团队高出一个超逼真高清视频生成AI。


只要一幅动态的语义地图,就可获得和真实世界几乎一模一样的视频。换句话说,只要把你心中的场景勾勒出来,无需实拍,电影级的视频就可以自动P出来:


640?wx_fmt=gif


除了街景,人脸也可生成:


640?wx_fmt=gif


这背后的vid2vid技术,是一种在生成对抗性学习框架下的新方法:精心设计的生成器和鉴别器架构,再加上时空对抗目标。


这种方法可以在分割蒙版、素描草图、人体姿势等多种输入格式上,实现高分辨率、逼真、时间相干的视频效果。


好消息,vid2vid现已被英伟达开源。


研究论文:
https://tcwang0509.github.io/vid2vid/paper_vid2vid.pdf

GitHub地址:
https://github.com/NVIDIA/vid2vid


2019趋势展望


Analytics Vidhya预计,明年在计算机视觉领域,对现有方法的改进和增强的研究可能多于创造新方法。


在美国,政府对无人机的限令可能会稍微“松绑”,开放程度可能增加。而今年大火的自监督学习明年可能会应用到更多研究中。


Analytics Vidhya对视觉领域也有一些期待,目前来看,在CVPR和ICML等国际顶会上公布最新研究成果,在工业界的应用情况还不乐观。他希望在2019年,能看到更多的研究在实际场景中落地。


Analytics Vidhya预计,视觉问答(Visual Question Answering,VQA)技术和视觉对话系统可能会在各种实际应用中首次亮相。


640?wx_fmt=gif


工具和框架



哪种工具最好?哪个框架代表了未来?这都是一个个能永远争论下去的话题。


没有异议的是,不管争辩的结果是什么,我们都需要掌握和了解最新的工具,否则就有可能被行业所抛弃。


今年,机器学习领域的工具和框架仍在快速的发展,下面就是这方面的总结和展望。

PyTorch 1.0


640?wx_fmt=jpeg


根据10月GitHub发布的2018年度报告,PyTorch在增长最快的开源项目排行上,名列第二。也是唯一入围的深度学习框架。


作为谷歌TensorFlow最大的“劲敌”,PyTorch其实是一个新兵,2017年1月19日才正式发布。2018年5月,PyTorch和Caffe2整合,成为新一代PyTorch 1.0,竞争力更进一步。


相较而言,PyTorch速度快而且非常灵活,在GitHub上有越来越多的开码都采用了PyTorch框架。可以预见,明年PyTorch会更加普及。


至于PyTorch和TensorFlow怎么选择?在我们之前发过的一篇报道里,不少大佬站PyTorch。


实际上,两个框架越来越像。前Google Brain深度学习研究员,Denny Britz认为,大多数情况下,选择哪一个深度学习框架,其实影响没那么大。


PyTorch官网:
https://pytorch.org/


AutoML


很多人将AutoML称为深度学习的新方式,认为它改变了整个系统。有了AutoML,我们就不再需要设计复杂的深度学习网络。


今年1月17日,谷歌推出Cloud AutoML服务,把自家的AutoML技术通过云平台对外发布,即便你不懂机器学习,也能训练出一个定制化的机器学习模型。


不过AutoML并不是谷歌的专利。过去几年,很多公司都在涉足这个领域,比方国外有RapidMiner、KNIME、DataRobot和H2O.ai等等。


除了这些公司的产品,还有一个开源库要介绍给大家:


Auto Keras!


这是一个用于执行AutoML任务的开源库,意在让更多人即便没有人工智能的专家背景,也能搞定机器学习这件事。


640?wx_fmt=jpeg


这个库的作者是美国德州农工大学(Texas A&M University)助理教授胡侠和他的两名博士生:金海峰、Qingquan Song。Auto Keras直击谷歌AutoML的三大缺陷:


第一,还得付钱。

第二,因为在云上,还得配置Docker容器和Kubernetes。

第三,服务商(Google)保证不了你数据安全和隐私。


官网:
https://autokeras.com/

GitHub:
https://github.com/jhfjhfj1/autokeras


TensorFlow.js


今年3月底的TensorFlow开发者会峰会2018上,TensorFlow.js正式发布。


这是一个面向JavaScript开发者的机器学习框架,可以完全在浏览器中定义和训练模型,也能导入离线训练的TensorFlow和Keras模型进行预测,还对WebGL实现无缝支持。


在浏览器中使用TensorFlow.js可以扩展更多的应用场景,包括展开交互式的机器学习、所有数据都保存在客户端的情况等。


640?wx_fmt=jpeg


实际上,这个新发布的TensorFlow.js,就是基于之前的deeplearn.js,只不过被整合进TensorFlow之中。


谷歌还给了几个TensorFlow.js的应用案例。比如借用你的摄像头,来玩经典游戏:吃豆人(Pac-Man)。


官网:
https://js.tensorflow.org/


2019趋势展望


在工具这个主题中,最受关注的就是AutoML。因为这是一个真正会改变游戏规则的核心技术。在此,引用H2O.ai的大神Marios Michailidis(KazAnova)对明年AutoML领域的展望。


以智能可视化、提供洞见等方式,帮助描述和理解数据

为数据集发现、构建、提取更好的特征

快速构建更强大、更智能的预测模型

通过机器学习可解释性,弥补黑盒建模带来的差距

推动这些模型的产生


未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。


未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。


  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”


640?wx_fmt=jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/493043.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

怎样清空输入缓冲区里的内容

参考自:http://blog.csdn.net/devil_2009/article/details/6364759 fflush()的作用是用来刷新缓冲区,fflush(stdin)刷新标准输入缓冲区,把输入缓冲区里的东西丢弃;fflush(stdout)刷新标准输出缓冲区,把输出缓冲区里的东…

leetcode BFS(python+c++)

1.最小基因变化 思路:bfs搜索回溯 python: class Solution:def minMutation(self, start: str, end: str, bank: List[str]) -> int:library [A,C, G,T]queue [start]num 0vis set()while queue:size len(queue)for i in range(size):cur queue.pop(0)i…

cocos2dx 父元素影响子元素

如果a中又b。 设置a的scaleX,a->getboudingbox会变化,contentsize不变化 子元素显示方面也会变化,同样的缩放比例。 子元素和父元素一起变化的属性还有,rotation/skewx/color 子元素不喝父元素一起变化的属性有:opa…

北欧小国的宏大AI实验: 让1%的人口接受人工智能培训

编译: 机器之能 微胖摘要:芬兰希望在人工智能的实际应用方面占据一席之地,成为世界领先国家。2017 年 10 月,芬兰成为欧盟第一个将国家人工智能战略付诸实施的国家。在 2018 年 6 月发布的第二份报告中,政府估计&#…

形象理解矩阵操作

1.矩阵和向量线性变换 线性变换可看着是对空间的挤压伸展。 也就是看成把向量中的值对矩阵列向量加权 ,在对向量求和 2.矩阵和矩阵的线性变换 矩阵左乘就是对行向量操作,矩阵右乘就是对列向量操作. 可以将其中一个矩阵看成是多个列向量,在拆开对剩下矩…

C/C++中system()函数详解

转载自:http://hi.baidu.com/519378007/item/5c49bb05e23728dbdce5b0e7 windows下system () 函数详解  windows操作系统下system () 函数详解(主要是在C语言中的应用)  函数名: system 功 能: 发出一个DOS命令 用 法: int system(char *c…

坑爹的uint32_t

首先看看下面这段程序: uint32_t compare 10; for (uint32_t i compare; i > 0; --i) { .......... } 这是一段比较危险的程序, 当 i的值变为 -1的时候,其实由于i是一个非负数整形,强制类型转换后,i又…

leetcode双指针(python与c++)

1.字符串的排列 思路:双指针滑动窗口 python: class Solution:def checkInclusion(self, s1: str, s2: str) -> bool:dict_{}for i in s1:dict_[i] dict_.get(i,0)1# # print(dict_:,dict_)left,right 0,0length 0minlen float(inf)res while right<len(s2):# 向右…

scanf( )函数的返回值

当从键盘连续进行输入时用while&#xff0c;但是程序自己不会通过正常的输入结束。 scanf("%d%d",&a, &b); 如果a和b都被成功读入&#xff0c;scanf()的返回值是2 如果只有a被成功读入或者只有b被成功读入&#xff0c;scanf()的返回值为1 如果a和b都未被…

之前接触过的测试的相关工具

比较出名的lr之类的就不记录了&#xff0c;只是记录一下之前安全测试相关的一些工具&#xff1a; 1.appscan&#xff0c;网页漏洞扫描工具 2.webscarab&#xff0c;可以拦截和修改浏览器与服务器之间发送的数据 3. httpwatch&#xff0c;可以分析浏览器和服务器之间的数据交互 …

CSAPP-计算机漫游

一.编译系统的工作流程: test.cpp #include <iostream> using namespace std; int main() { //hahha cout<<"hello world"<<endl; return 0; }直接生成可执行程序test g -o test test.cpp 深入解析生成可执行程序test的过程 1.g -E test.cpp &…

2-SAT !!

打算这几天搞2-sat了&#xff0c;好好看看这几个博客 再刷十来个题目 gogo&#xff01;&#xff01; http://blog.csdn.net/jarjingx/article/details/8521690 坑在这里&#xff0c;好好填吧&#xff01; poj 3207 poj 3683 poj 3678 poj 3648 poj 2723 poj 2749转载于:https:/…

报告:下一代技术革命“AI”来袭

来源&#xff1a;199IT互联网数据中心摘要&#xff1a;Rolandberger发布了新报告“下一代技术革命‘AI’来袭”&#xff0c;分析了人们是否准备好迎接下一代技术革命。快进到2017年&#xff0c;我们正处于人工智能&#xff08;AI&#xff09;革命的风口浪尖。它会影响经济、工业…

CSAPP--信息的表示与处理

虚拟地址空间: 大多数 Intel 兼容机采用小端模式,IBM 和 Sun 公司的机器大多数机器采用大端法。 对于很多新的处理器,支持双端法,可以配置成大端或者小端运行。例如基于 ARM 架构的处理器,支持双端法,但是 Android 系统和 iOS 系统却只能运行在小端模式. 下面是代码测试,获取1…

BZOJ-2463 谁能赢呢?

博弈论题。。。 可以发现&#xff0c;假如都依照最优策略来看的话&#xff0c;棋盘最后必然会被全部走过。。。于是就变成判断n*n的奇偶性的问题了。。。 然后小学时不是学过“奇数*奇数奇数&#xff0c;偶数*偶数偶数”。。。。那样的话判断n的奇偶性就行了。。。 【Code】 转…

各国自动驾驶政策概况及特征

来源&#xff1a;中国信息通信研究院CAICT摘要&#xff1a;主要国家自动驾驶技术的研发、测试、法规、政策等方面的储备和进展。近年来&#xff0c;美、欧、日等发达国家和地区将自动驾驶技术作为交通未来发展的重要方向&#xff0c;在技术研发、道路测试、标准法规、政策等方面…

归并排序-逆序对数

/*程序装载自&#xff1a;http://www.cnblogs.com/XiongHarry/archive/2008/11/06/1327732.html求逆序对数设A[1..n]是一个包含N个非负整数的数组。如果在i〈 j的情况下&#xff0c;有A〉A[j]&#xff0c;则(i,j)就称为A中的一个逆序对。例如&#xff0c;数组&#xff08;3&…

CSAPP--整数的表示

一.非负数与负数编码以及最值 非负数编码: 负数编码&#xff08;采用补码即原码取反1&#xff09;: 故对于四位补码&#xff0c;最大值为7,最小值为-8 所以各类型负数/非负数范围: 不同字节无符号最大值 不同字节有符号最大值 不同字节有符号最小值 例子1:有符号强制转换无…

一文看懂全球半导体格局

来源&#xff1a;华泰证券中国半导体产业链渐趋完善&#xff0c;产业生态体系逐步成形目前我国垂直分工模式的芯片产业链初步搭建成形&#xff0c;产业上中下游已然打通&#xff0c;涌现出一批实力较强的代表性本土企业。集成电路是基础性、先导性产业&#xff0c;涉及国家信息…

【转载】徐小平techCrunch演讲:创业者要找到跟你同生共死的伙伴!

本文转载自微信&#xff0c; 地址&#xff1a;http://mp.weixin.qq.com/s?__bizMjM5NDk5MTA0MQ&mid200587915&idx1&sn05dde952f177c88dfb05a3d35f7fe36f&scene1&fromsinglemessage&isappinstalled0#rd “我经常说两句话。不要用兄弟情谊来追求共同利益…