图解机器学习:人人都能懂的算法原理

来源:机器学习研究组订阅号

算法公式挺费神,机器学习太伤人。任何一个刚入门机器学习的人都会被复杂的公式和晦涩难懂的术语吓到。但其实,如果有通俗易懂的图解,理解机器学习的原理就会非常容易。本文整理了一篇博客文章的内容,读者可根据这些图理解看似高深的机器学习算法。

机器学习这个主题已经很普遍了,每个人都在谈论它,但很少有人能够透彻地了解它。当前网络上的一些机器学习文章晦涩难懂,理论性太强,或者通篇云里雾里地介绍人工智能、数据科学的魔力以及未来的工作等。

所以呢,本文作者 vas3k 通过简洁的语言和清晰明了的图示内容,使得读者能够更容易地理解机器学习。抛却了晦涩难懂的理论介绍,文中侧重于机器学习中的实际问题、行之有效的解决方案和通俗易懂的理论。无论你是程序员还是管理者,本文都适合你。

AI 的范畴

AI 到底它包含了哪些领域,它与各种技术名词之间的关系又是什么样的?其实我们会有多种判断方式,AI 范畴的划分也不会是唯一的,例如最「常见」的认识可能如下图所示。

你可能会认为:

  • 人工智能是个完整的知识领域,类似于生物学或者是化学;

  • 机器学习是人工智能中非常重要的一部分,但并不是唯一一个部分;

  • 神经网络是机器学习的一种,现在非常受欢迎,但依然有其他优秀的算法;

但是,难道深度学习都是神经网络吗?明显并不一定是,例如周志华老师的深度森林,它就是第一个基于不可微构件的深度学习模型。因此,更科学的划分可能是下图花书中的这种:

机器学习下面应该是表示学习,即概括了所有使用机器学习挖掘表示本身的方法。相比传统 ML 需要手动设计数据特征,这类方法能自己学习好用的数据特征。整个深度学习也是一种表示学习,通过一层层模型从简单表示构建复杂表示。

机器学习路线图

如果你比较懒,那这有一张完整的技术路线图供你参考。

按照现阶段主流分类来看,机器学习主要分为四类:

  • 经典机器学习;

  • 强化学习;

  • 神经网络和深度学习;

  • 集成方法;

经典机器学习

经典机器学习经常被划分为两类:监督型学习和非监督型学习。

监督学习

在分类中,模型总是需要一个导师,即对应特征的标注,这样的话机器就可以基于这些标注学习进行进一步分类。万事皆可分类,基于兴趣去分类用户、基于语言和主题分类文章、基于类型而分类音乐以及基于关键词分类电子邮件。

而在垃圾邮件过滤中,朴素贝叶斯算法得到了极其广泛的应用。事实上,朴素贝叶斯曾被认为是最优雅、最实用的算法。

支持向量机 (SVM) 是最流行的经典分类方法。也是被用来对现有的一切事物进行分类: 照片中的植物外观,文件等等等。支持向量机背后的思路也很简单,以下图为例,它试图在数据点之间画出两条边距最大的线。

监督学习——回归

回归基本上是分类,但预测的标的是一个数字而不是类别。例如按里程计算的汽车价格,按时间计算的交通量,按公司增长计算出市场需求量等。当所预测的事物是依赖于时间时,回归是非常合适的选择。

无监督学习

无监督学习是 90 年代才被发明出来的,可以这么去描述它「根据未知特征对目标进行分割,而由机器去选择最佳方式。」

无监督学习——聚类

聚类是一种没有预先定义类的分类。比如当你不记得你所有的颜色时,把袜子按颜色分类一样。聚类算法试图通过某些特征从而找到相似的对象并将它们合并到一个聚类中。

无监督学习——降维

「将特定的特征组合成更高级的特性」

人们在使用抽象的东西总是比使用零碎的特征更具有方便性。举个例子,将所有长着三角形的耳朵、长鼻子和大尾巴的狗合并成一个很好的抽象概念——「牧羊犬」。

再比如有关科技的文章中拥有更多科技术语,而政治新闻里最多的是政客的名字。假如我们要将这些具有特性的单词以及文章组成一个新的特征,以保持其潜在关联度,SVD 便是个不错的选择。

无监督学习——关联规则学习

「在订单流中分析出特征模式」

包括分析购物车,自动化营销策略等。举个例子,顾客拿着六瓶啤酒走向收银台,在其路上是否该放些花生?如果放了,这些顾客多久会来买一次?如果啤酒花生是绝配,那还有其他什么事物也可进行这样的搭配呢?


现实生活中,每个大型零售商都有它们自己的专用解决方案,而当中技术水平最高的要数那些「推荐系统」。

集成方法

「团结就是力量」,这句老话很好地表达了机器学习领域中「集成方法」的基本思想。在集成方法中,我们通常会训练多个「弱模型」,以期待能组合成为一个强大的方法。像各种经典 ML 竞赛中,差不多效果最好的那一拨,如梯度提升树、随机森林等都属于集成方法。

一般而言集成方法的「组合方式」主要可以分为三种:Stacking、Bagging、Boosting。

如下图所示,Stacking 通常考虑的是异质弱学习器,弱学习器可以先并行地训练,而后通过一个「元模型」将它们组合起来,根据不同弱模型的预测结果输出一个最终的预测结果。

Bagging 方法通常考虑的是同质弱学习器,相互独立地并行学习这些弱学习器,并按照某种确定性的平均过程将它们组合起来。假设所有弱学习器都是决策树模型,那么这样做出来的 Bagging 就是随机森林。

Boosting 方法通常考虑的也是同质弱学习器,只不过它的思想是「分而治之」。它以一种高度自适应的方法顺序地学习这些弱学习器,且后续弱模型重点学习上一个弱模型误分类的数据。

这就相当于不同的弱分类器,专注于部分数据,达到「分而治之」的效果。如下所示,Boosting 就是以串行组合不同模型的范式。大名鼎鼎的 XGBoost、LightGBM 这些库或算法,都采用的 Boosting 方法。

现在,从朴素贝叶斯到 Boosting 方法,经典机器学习的主要分支已经具备了。如果读者希望有一个更系统与详细地了解,李航老师的《统计学习方法》与周志华老师的《机器学习》是最好的两本中文教程。

当然,在这篇博客中,作者还介绍了强化学习与深度学习等等,内容非常适合对人工智能感兴趣且非相关专业的读者,加上形象的配图,算得上是篇非常不错的科普文。如果你对这种简单易懂的叙述方式感兴趣的话,可以去博客上详细阅读。

参考链接:https://vas3k.com/blog/machine_learning/

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/488195.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python 什么时候会被取代?

来源:CSDN译者 | 弯月,责编 | 郭芮以下是译文: Python经过了几十年的努力才得到了编程社区的赏识。自2010年以来,Python得到了蓬勃发展,并最终超越了C、C#、Java和JavaScript。但是,这种趋势将持续到什么时…

Android开发艺术探究Note

第一章:Activity的生命周期和启动模式 生命周期onPause表示activity正在停止,onPaus必须先执行完(栈顶的activity),新的activity的onResume才会执行。onStop表示activity即将停止(透明不会执行)…

烧脑:宇宙时空结构是量子纠错码

来源:Future远见现在越来越多的理论物理学家开始相信,时空起源于纠缠的量子信息。粗略地讲,时空中最重要的“相邻”概念,可以认为是起源于量子纠缠:有纠缠就是相邻,没有纠缠就是不相邻。如果你相信这一观念…

李德毅院士:通用人工智能十问

来源:学术头条共识:智能是学习的能力,以及解释、解决问题的能力;人工智能是脱离生命体的智能,是人类智能的体外延伸;通用人工智能通过不断学习,积累本领,进化成长,能够面…

咸阳高考成绩查询2021,2021咸阳市地区高考成绩排名查询,咸阳市高考各高中成绩喜报榜单...

距离2018年高考还有不到一个月的时间了,很多人在准备最后冲刺的同时,也在关心高考成绩。2018各地区高考成绩排名查询,高考各高中成绩喜报榜单尚未公布,下面是往年各地区高考成绩排名查询,高考各高中成绩喜报榜单,想要了解同学可以…

云计算与人工智能

来自:cnblogs.com/popsuper1982/p/8505203.html我今天要讲这三个话题,一个是云计算,一个大数据,一个人工智能,我为什么要讲这三个东西呢?因为这三个东西现在非常非常的火,它们之间好像互相有关系…

泸西一中2021高考成绩查询,云南红河州四所好高中,红河州一中一本率领先,建水一中不容小觑...

红河州地处我国西南,是一个常住人口超过467万的多民族聚居边疆自治州(地级行政区划),下辖4市(县级)、9县(其中3个自治县),经济总量在全省仅次于昆明与曲靖,是一个综合实力较强的自治州。红河州的基础教育实力相当不错,…

python 遍历list_Python列表遍历知多少

遍历列表中的所有元素是常用的一种操作,在遍历的过程中可以完成查询、处理等功能。在生活中,如果想要去商场买一件衣服,就需要在商场中逛一圈,看是否有想要买的衣服。逛商场的过程相当于列表的遍历操作。在Python中遍历列表的方法…

自我监督学习:AI技术的未来发展方向

尽管深度学习已经在人工智能领域做出重大贡献,但这项技术本身仍存在一项致命缺陷:需要大量数据的加持。来源丨The Next Web尽管深度学习已经在人工智能领域做出重大贡献,但这项技术本身仍存在一项致命缺陷:需要大量数据的加持。深…

vue8 生命周期

<!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>智能社——http://www.zhinengshe.com</title><meta name"viewport" content"widthdevice-width, initial-scale1.0, maximum…

AI无间道!清华AI团队推出AI安全平台,欺骗顶尖人脸算法后又强势修复漏洞

随着人工智能技术的发展&#xff0c;人工智能在很多场景里正逐渐替代或协作着人类的各种劳动&#xff0c;它们可以成为人类的眼睛、耳朵、手臂甚至大脑。其中&#xff0c;机器视觉作为AI时代的基础技术&#xff0c;其背后的AI算法一直是各科技巨头和创业公司共同追逐的热点。然…

神经拟态芯片拉近AI与人脑距离

来源&#xff1a;科技日报除了会看会听&#xff0c;还会“闻”。近日&#xff0c;一直致力于模仿人类五感的人工智能又有新突破&#xff0c;通过神经拟态芯片&#xff0c;人工智能已经掌握了丙酮、氨和甲烷等10种气味的神经表征&#xff0c;强烈的环境干扰也不会影响它对气味的…

单片机与微型计算机在结构上的区别和联系,AT89S52单片机片内硬件组成结构,与一般单片机和微机组成结构比较,显著区别有?...

满意答案a52245122020.09.19采纳率&#xff1a;49% 等级&#xff1a;8已帮助&#xff1a;159人以下内容讲诉了AT89S51/52单片机与AT89C51单片机的区别&#xff0c;资源来自网络转帖于此&#xff0c;请核实后采用。它们之间主要区别在于以下几点&#xff1a;1.引脚功能:管脚几…

蒲慕明院士:脑机融合技术或许会成为未来人工智能的一个热门方向

来源&#xff1a;中国经济大讲堂【导读】当前&#xff0c;以人工智能为代表的新技术&#xff0c;成为推动第四次工业革命走向深入的重要力量&#xff0c;会给经济、社会、文化等多领域的发展带来深刻变革。但是&#xff0c;因为对大脑工作方式的了解有限&#xff0c;人工智能的…

html 两个图片并排,HTML – 两个图像并排和响应

使用显示表并排放置并保持并排并响应.显示&#xff1a;表;表格布局&#xff1a;固定;将使用display&#xff1a;table-cell为子元素创建流畅的布局;这不仅可以使它们保持相同的宽度,还可以使容器保持相同的高度.vertical-align&#xff1a;top;将它们与顶部对齐,或者您可以将垂…

opencv 4快速入门_初学摄影,怎么才能快速入门?给初学的你们4条建议

初学摄影&#xff0c;怎么才能快速入门&#xff1f;给初学的你们4条建议大家在初期学习摄影的时候&#xff0c;不知道怎么入门&#xff0c;也不会拍摄&#xff0c;今天就给初学摄影的你们几条建议&#xff01;一、选对拍摄模式很多新手摄影师一直用P档拍摄&#xff0c;过一段时…

用机器学习分析美国新财年1万个国防项目,7054亿军费都投给了哪些技术?

大数据文摘出品来源&#xff1a;warontherocks编译&#xff1a;lin、曹培信2月10日&#xff0c;美国国防部发布了2021财年预算&#xff0c;概述了下一财年国防部的支出重点&#xff0c;总金额达到7054亿美元。都说财年预算的目的是为下一场战争做准备&#xff0c;早在2018年&am…

织梦后台如何生成站点地图sitemap.xml

第一步在网站根目录建立sitemap.php文件 内容如下&#xff1a; 写一个计划任务文件命名为generate_sitemap.php&#xff0c;放在/plus/task目录里&#xff0c;文件内容如下&#xff1a; <?php//定时生成网站地图require_once(dirname(__FILE__)./include/common.inc.php);i…

神经元“超级替补”让失明小鼠恢复视力

来源&#xff1a;文汇报一旦长成就得用一辈子&#xff0c;即使有零部件用坏了&#xff0c;也几乎没有替换的可能&#xff0c;这就是人体的神经系统。这种特性给人类带来了无穷困扰&#xff1a;一些功能性损伤导致失明、瘫痪&#xff0c;某些退行性改变引发帕金森病、阿尔兹海默…

人工智能可能成为我们检测COVID-19最有效的方法吗?

Images: RADLogicsUsing three CT scans from a single coronavirus patient, the RADLogics algorithm quantifies the amount of recovery with a "corona score."来源&#xff1a;Megan Scudellari在过去的一段时间里&#xff0c;世界各地的公司宣布了一系列基于人…