深度学习,路在何方?

文 | Severus

最近,AI领域的三位图灵奖获得者Yoshua Bengio、Yann LeCun和Geoffrey Hinton共同发表了一篇文章,名为Deep Learning for AI,文中讨论了深度学习的起源、发展、成就及未来。

文章标题
Deep Learning for AI

原文链接
https://cacm.acm.org/magazines/2021/7/253464-deep-learning-for-ai/fulltext

小伙伴们也可以在 【夕小瑶的卖萌屋】订阅号后台回复关键词 【0712】 下载论文PDF~

今天我们有什么

得益于越来越便宜的算力,以及越来越海量的数据,加上各种机构做出了越来越简单易用的深度学习框架,如Theano、Torch、TensorFlow、PyTorch等,它们可以做自动求导,让训练深度学习模型变得更加简单。这一切因素带动了深度学习的火热。

深度学习在结构上的成功,则在于它的多层结构,可以进行重组、重构建浅层网络得到更加抽象的特征,而这些特征,用于最终的任务,如分类任务、生成任务等,就会变得足够的简单。但如果想得到合理的抽象特征,自然也就需要海量的数据来支撑。

在有标签数据充沛的领域,监督学习自然是会达到非常好的效果;在规则足够简单,且限制比较强的领域,强化学习也自然会有非常强势的表现(如下棋、游戏等)。但是现实世界显然不会是这么理想的,那么,利用迁移学习,将从数据充沛的任务中学习到的知识应用到一些数据不是那么够的任务中,就成为了下一步解决方案。那么迁移学习中的预训练任务,要怎么样去设计,才能得到一种对下游任务足够友好的通用表示,且数据可以足够多呢?

各个领域的人,尝试了各种无监督、自监督的方式,如NLP领域,有完形填空任务,即让模型填上文本中遮蔽掉的词,或改正错误的词;CV领域,则使用对比学习来得到更加鲁棒的表示(实际上,近年来也有将对比学习策略应用到NLP的工作,当然这些工作最大的问题仍是怎么样去定义对比学习的正例和负例)。还有一种自监督的学习方法是变分自动编码器(VAE),简单来讲,就是由编码器学习图片的表示,再用解码器还原这张图片(用这个表示去生成一张图片)。

以上是文章中对近期深度学习的工作进展的介绍,寥寥数字,远不及文章中所提全面,例如soft attention的成功、ReLU成功之谜,本文不再介绍,而比较关键的是要谈一谈深度学习的未来。

未来何去何从

机器学习研究,都会遵从一个强假设,即独立同分布假设,train集合和test集合需是相互独立且同分布的。当机器学习系统想要应用于产业中的时候,理想的情况自然也是训练样本和真实应用场景是同分布的(工业场景下不一定非得要独立,甚至,训练样本就在使用场景之中,促使一定程度的过拟合,可能才是工业比较希望的)。如果应用场景是足够窄,且数据足够多(有监督学习),或规则足够强(强化学习),这种理想情况是几乎可以实现的,但现实往往不尽如人意,也就是说,同分布的假设大概率要打破。

这也就导致了很多在实验任务中打出了不俗分数的模型,到了真实的使用场景中,往往会爆发这样或那样的问题,导致它无法应用。哪怕是已经非常神奇的自监督预训练模型或无监督预训练模型,在面对超出分布(out-of-distribution)的场景的时候,表现也会掣肘。

与深度学习模型不同,人就有着非常强大的领域迁移能力,且这种能力往往又不需要很多的样本,甚至仅仅需要一些规则(符号派的规则描述),就可以迅速适应一个新的领域。例如,如果看见一张以前完全没有见过的风格的照片,人大概也能分辨照片上面有什么,哪怕分辨不了,那他认识了这一张,也会迅速认识很多类似的照片。两个使用同样语言,但受到过不太一样的教育的人,在交流的时候,如果使用的是同一个语言,那么两个人大概率也能进行交流,只不过涉及到专业的背景时才可能会存在交流上的障碍;一个人在学习一个新的游戏的时候,可能仅仅需要理解规则,加上试玩一两次,就可以掌握这个游戏的基本玩法,后期对游戏规则的认识,或者学习技巧,也无非是扩充自己对这个游戏的认识。

所以,针对现有的深度学习系统,或许我们应该探索的方向是,怎样设计出一个能够很好地面对超出分布的机器学习系统。

关于这一问题,原文中提出了多种改善方向,包括

  • 胶囊网络所使用的用相邻的成组神经元去表示实体

  • 适应多种时间尺度的权重设计

  • 高层次的认知。

这里我想要针对高层次的认知这一部分谈一下。

从“感知”到“认知”?

文中对高层次的认知的描述,是一种“想象”能力,将现在已经学习的知识或技能重新组合,重构成为新的知识体系,随之也重新构建出了一个新的假想世界(如在月球上开车),这种能力是人类天生就被赋予了的,在因果论中,被称作“反事实”能力。也正如Judea Pearl所代表的因果论体系中所提到的因果关系之梯,观察(感知)、干预、反事实(认知)。

现有的统计学习系统仅仅停留在因果关系之梯的第一层,即观察,观察特征与标签之间的关联,而无法做到更高层次的事情。

当然现在也有很多人在做相关的研究,例如用反事实的思想去做训练策略(例如二分类,先假设当前样本为正例,得到一个表示,再假设当前样本为负例,又得到一个表示,两个表示相减,所剩余的东西,作者即认为是真正有用的特征),或者干脆去做对抗训练(例如文本分类中,替换实体或者遮蔽实体,试图找到人去判断这句话为某一类的真正的因素)。这些方法是想要在统计的限制之内试图去找到真正与答案有“因果”关系的因素,或者更加宏大的是,找到人类关于这个问题的通用知识。实际上当我们在统计模型中,通过去干预数据描述世界的方式,驱使模型真正模仿了人真正的推理过程,那么也就是让模型学习到了人类关于这个任务的通用知识。个人认为,如果能驱使模型学习到通用知识,其实同分布的假设也就没有那么容易被打破了。

这其实和2年前Welling教授所提到的愿景是类似的,Welling教授想要赋予模型演绎的能力,而这三位大佬的文章中则想要让AI系统学习到潜在的因果,能够从低层次的“感知”到高层次的“认知”。

但实际上,这样一种系统其实会超出现在所有对神经网络、深度学习等等的定义,会超出对统计模型的定义。统计模型其本身的原理、结构就限制了其能力,它只能做归纳,却不能做演绎。那也就是说,如果想赋予深度学习系统认知的能力,则需要彻底改变现有深度学习系统的模式,包括模型的存在形式,模型“学习”的过程,这可能是想要实现更强的人工智能的一种必然,却又无法想象它会是以一种什么样的形式存在,我想,大佬们在文章里面没有讲清楚,也可能这片未来本就是迷雾重重的。

实用主义出发的道路

我的口嗨

AI研究一直分为两个学派,符号学派及统计学派。符号学派从定理证明开始,到专家系统,到知识图谱,以及曾经非常火爆的五代机等,实际上一直在做的事情,就是试图将我们上文所讨论的将人类的认知能力描述出来,赋予给机器的过程。只不过,符号学派需要无数的人去不断地穷举、描述真实世界的知识,再编写成为机器所能接受的形式,还要去考虑计算效率等等的问题,繁琐,效率很低,面对复杂的真实世界,自然会又种种掣肘,在数据量够大、算力够便宜的今天,远不如统计学派来的优雅。

可是我们又不得不承认,在划分能力(即定义“否”的能力)上,符号派相比于统计派,就是得天独厚的。

其实在统计学习已经逐渐触摸到上限的今天,我们无法设想出新的道路,但我们是否可以走走老路呢?例如,统计学习实际上是去解决人看不过来的东西,将复杂的世界划分或聚拢成为若干个分组,每一个分组去解决不同的问题,那其实使用统计学习到的特征,成为一种规则触发,与符号AI结合,去解决更加复杂的问题,看似中庸,但使其作为一个实用者出发的道路,是否可以呢?

实际上,统计学习系统作为一个辅助决策的工具,已经在很多个领域有这种应用了,利用各个条件执行决策的,可能是人,可能是一个简简单单的规则引擎,它虽不优雅,但胜在有用。

或许,人工智能的发展,可能就是要统合,就如同玉女剑法和全真剑法一样,看似互相克制,但其实双剑合璧,却是真正的威力。

寻求报道、约稿、文案投放:

添加微信xixiaoyao-1,备注“商务合作”

后台回复关键词【入群

加入卖萌屋NLP/IR/Rec与求职讨论群

后台回复关键词【顶会

获取ACL、CIKM等各大顶会论文集!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478348.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

前端渲染引擎doT.js解析

背景 前端渲染有很多框架,而且形式和内容在不断发生变化。这些演变的背后是设计模式的变化,而归根到底是功能划分逻辑的演变:MVC—>MVP—>MVVM(忽略最早混在一起的写法,那不称为模式)。近几年兴起的R…

elasticsearch7使用指导

目录结构: 一、es概述 二、es安装/head插件安装/kibana安装 三、es核心概念 四、IK分词器 五、RestFul操作 六、CRUD(增删改查) 七、Springboot集成es ---------------------------------------分割线:正文------------------------------------…

开源开放 | 欢迎选修浙江大学《知识图谱》开放共享慕课

点击“阅读原文”或扫描图中二维码进入课程教学计划第一章知识图谱概论1.1 语言与知识1.2 知识图谱的起源1.3 知识图谱的价值1.4 知识图谱的技术内涵第二章知识图谱的表示2.1 什么是知识表示2.2 人工智能历史发展长河中的知识表示2.3 知识图谱的符号表示方法2.4 知识图谱的向量…

LeetCode 43. 字符串相乘(大数乘法)

文章目录1. 题目2. 小学竖式乘法2.1 普通版2.2 优化版1. 题目 给定两个以字符串形式表示的非负整数 num1 和 num2,返回 num1 和 num2 的乘积,它们的乘积也表示为字符串形式。 示例 1: 输入: num1 "2", num2 "3" 输出: "6&q…

旅游推荐系统的演进

度假业务在整个在线旅游市场中占据着非常重要的位置,如何做好做大这块蛋糕是行业内的焦点。与美食或酒店的用户兴趣点明确(比如找某个确定的餐厅或者找某个目的地附近的酒店)不同,旅游场景中的用户兴趣点(比如周末去哪…

预训练卷不动,可以卷输入预处理啊!

文 | 德志编 | 小戏目前伴随着预训练预言模型的兴起,越来越多的 NLP 任务开始脱离对分词的依赖。通过 Fine-Tune Bert 这类预训练预言模型,能直接在下游任务上取得一个很好的结果。同时也有文章探讨中文分词在神经网络时代的必要性。对于分词任务本身也是…

检索式问答以及评论观点抽取+情感分析

3款开发者神器,快速搭建「检索、问答、情感分析」应用! 人工智能与算法学习 于 2021-12-30 08:10:00 发布 26 收藏 文章标签: 百度 大数据 机器学习 人工智能 数据分析 原文链接:https://mp.weixin.qq.com/s?__bizMzIyOTkyOTE…

征稿 | Call for papers on Knowledge Graphs

Knowledge graph是Data Intelligence的核心主题和期刊特色之一。为持续展示这一领域的最新进展和前沿成果,Data Intelligence正在与国际学者一道策划两期Knowledge graph专辑。期待大家关注并积极投稿参与!DI专辑Special Issue on Personal Health Knowl…

LeetCode 179. 最大数(自定义谓词函数--Lambda表达式--排序)

1. 题目 给定一组非负整数,重新排列它们的顺序使之组成一个最大的整数。 示例 1: 输入: [10,2] 输出: 210示例 2: 输入: [3,30,34,5,9] 输出: 9534330 说明: 输出结果可能非常大,所以你需要返回一个字符串而不是整数。来源:力扣&#xff08…

python实现requests访问接口,比如es接口

首先我们先引入requests模块 import requests一、发送请求 r requests.get(https://api.github.com/events) # GET请求 r requests.post(http://httpbin.org/post, data {key:value}) # POST请求 r requests.put(http://httpbin.org/put, data {key:value}) # PUT请求 r…

拿下字节offer,这些面试题命中率高达90%以上

昨天在知乎上刷到一个热门问题:程序员需要达到什么水平才能顺利拿到 20k 无压力?其中一个最热门的回答是:“其实,无论你是前端还是后端、想进大厂还是拿高薪,算法都一定很重要。”为什么,算法会如此重要?不…

HDFS NameNode重启优化

本文已发表于InfoQ,下面的版本又经过少量修订。 一、背景 在Hadoop集群整个生命周期里,由于调整参数、Patch、升级等多种场景需要频繁操作NameNode重启,不论采用何种架构,重启期间集群整体存在可用性和可靠性的风险,所…

LeetCode 4. 寻找两个有序数组的中位数(二分查找,难)

文章目录1. 题目2. 解题2.1 合并数组2.2 优化2.1解法,双指针2.3 二分法(找第k个数)2.4 切分法1. 题目 给定两个大小为 m 和 n 的有序数组 nums1 和 nums2。 请你找出这两个有序数组的中位数,并且要求算法的时间复杂度为O(log(mn…

论文浅尝 | 当Hearst还不够时:用分布模型来提升语料库中的上下义关系检测

笔记整理 | 潘晓梅,东南大学硕士,研究方向为知识图谱构建、自然语言处理。来源:EMNLP 2020.论文下载地址: https://www.aclweb.org/anthology/2020.emnlp-main.502.pdf项目源码地址: https://github.com/ccclyu/ComHyp…

LeetCode 887. 鸡蛋掉落(DP,难、不懂)

1. 题目 你将获得 K 个鸡蛋&#xff0c;并可以使用一栋从 1 到 N 共有 N 层楼的建筑。 每个蛋的功能都是一样的&#xff0c;如果一个蛋碎了&#xff0c;你就不能再把它掉下去。 你知道存在楼层 F &#xff0c;满足 0 < F < N 任何从高于 F 的楼层落下的鸡蛋都会碎&…

正确的LeetCode刷题姿势!

名师 带你刷爆LeetCode算法知识 讲解训练免费0元报名参加在讲到 AI 算法工程师时&#xff0c;大部分同学关注点都在高大上的模型&#xff0c;一线优秀的项目。但大家往往忽略了一点&#xff0c;人工智能的模型、项目最终还是要靠程序和算法实现。算法能力是每一个程序员的基本功…

论文浅尝 | DI刊发的那些有关Knowledge Graph的论文

本文转载自公众号&#xff1a;数据智能英文刊知识图谱被称为人工智能的基石&#xff0c;它的前身是语义网&#xff0c;由谷歌在2012年率先提出&#xff0c;用于改善自身的搜索业务。Data Intelligence执行主编、东南大学计算机科学与技术学院漆桂林教授这样定义知识图谱&#x…

缓存那些事

本文已发表于《程序员》杂志2017年第3期&#xff0c;下面的版本又经过进一步的修订。 一般而言&#xff0c;现在互联网应用&#xff08;网站或App&#xff09;的整体流程&#xff0c;可以概括如图1所示&#xff0c;用户请求从界面&#xff08;浏览器或App界面&#xff09;到网络…

LeetCode 42. 接雨水(双指针、单调栈)

文章目录1. 题目2. 解题2.1 正反扫描法2.2 双指针2.3 单调栈1. 题目 给定 n 个非负整数表示每个宽度为 1 的柱子的高度图&#xff0c;计算按此排列的柱子&#xff0c;下雨之后能接多少雨水。 上面是由数组 [0,1,0,2,1,0,1,3,2,1,2,1] 表示的高度图&#xff0c;在这种情况下&am…

论文浅尝 - IJCAI | Knowledge is NOT always you need: 外部知识注入预训练模型的利与弊...

转载公众号 | 浙大KG论文题目&#xff1a;Drop Redundant, Shrink Irrelevant: Selective Knowledge Injection for Language Model Pretraining本文作者&#xff1a;张宁豫&#xff08;浙江大学&#xff09;、邓淑敏&#xff08;浙江大学&#xff09;、张亦弛&#xff08;阿里…