全干货!机器学习通识篇知识分享

1517940938621c633d23b731af2de7ca.png

来源:海豚数据科学实验室

机器学习(通识篇).

2ed0c6d27b6b13e46860f1aa69d75cdf.png

机器学习定义

机器学习(Machine Learning)本质上就是让计算机自己在数据中学习规律,并根据所得到的规律对未来数据进行预测。

机器学习包括如聚类、分类、决策树、贝叶斯、神经网络、深度学习(Deep Learning)等算法。

机器学习的基本思路是模仿人类学习行为的过程,如我们在现实中的新问题一般是通过经验归纳,总结规律,从而预测未来的过程。机器学习的基本过程如下:

3231c1e3d00e1c06d73a1768885b01fb.png

机器学习基本过程

机器学习发展历程

从机器学习发展的过程上来说,其发展的时间轴如下所示:

e33a4a706c30ce5cb40e54b02cec58e5.png

机器学习发展历程

从上世纪50年代的图灵测试提出、塞缪尔开发的西洋跳棋程序,标志着机器学习正式进入发展期。

  • 60年代中到70年代末的发展几乎停滞。

  • 80年代使用神经网络反向传播(BP)算法训练的多参数线性规划(MLP)理念的提出将机器学习带入复兴时期。

  • 90年代提出的“决策树”(ID3算法),再到后来的支持向量机(SVM)算法,将机器学习从知识驱动转变为数据驱动的思路。

  • 21世纪初Hinton提出深度学习(Deep Learning),使得机器学习研究又从低迷进入蓬勃发展期。

从2012年开始,随着算力提升和海量训练样本的支持,深度学习(Deep Learning)成为机器学习研究热点,并带动了产业界的广泛应用。

机器学习分类

机器学习经过几十年的发展,衍生出了很多种分类方法,这里按学习模式的不同,可分为监督学习、半监督学习、无监督学习和强化学习。

监督学习

监督学习(Supervised Learning)是从有标签的训练数据中学习模型,然后对某个给定的新数据利用模型预测它的标签。如果分类标签精确度越高,则学习模型准确度越高,预测结果越精确。

监督学习主要用于回归和分类。

cb828f3f7fea74cfa97a100cdb8c889e.png

常见的监督学习的回归算法有线性回归、回归树、K邻近、Adaboost、神经网络等。

常见的监督学习的分类算法有朴素贝叶斯、决策树、SVM、逻辑回归、K邻近、Adaboost、神经网络等。

半监督学习

半监督学习(Semi-Supervised Learning)是利用少量标注数据和大量无标注数据进行学习的模式。

半监督学习侧重于在有监督的分类算法中加入无标记样本来实现半监督分类。

常见的半监督学习算法有Pseudo-Label、Π-Model、Temporal Ensembling、Mean Teacher、VAT、UDA、MixMatch、ReMixMatch、FixMatch等。

无监督学习

无监督学习(Unsupervised Learning)是从未标注数据中寻找隐含结构的过程。

无监督学习主要用于关联分析、聚类和降维。

常见的无监督学习算法有稀疏自编码(Sparse Auto-Encoder)、主成分分析(Principal Component Analysis, PCA)、K-Means算法(K均值算法)、DBSCAN算法(Density-Based Spatial Clustering of Applications with Noise)、最大期望算法(Expectation-Maximization algorithm, EM)等。

强化学习

强化学习(Reinforcement Learning)类似于监督学习,但未使用样本数据进行训练,是是通过不断试错进行学习的模式。

在强化学习中,有两个可以进行交互的对象:智能体(Agnet)和环境(Environment),还有四个核心要素:策略(Policy)、回报函数(收益信号,Reward Function)、价值函数(Value Function)和环境模型(Environment Model),其中环境模型是可选的。

强化学习常用于机器人避障、棋牌类游戏、广告和推荐等应用场景中。

为了便于读者理解,用灰色圆点代表没有标签的数据,其他颜色的圆点代表不同的类别有标签数据。监督学习、半监督学习、无监督学习、强化学习的示意图如下所示:

fdb0e53c30ceb19aea6bdd33ec83a26a.png

机器学习应用之道

机器学习是将现实中的问题抽象为数学模型,利用历史数据对数据模型进行训练,然后基于数据模型对新数据进行求解,并将结果再转为现实问题的答案的过程。机器学习一般的应用实现步骤如下:

  • 将现实问题抽象为数学问题;

  • 数据准备;

  • 选择或创建模型;

  • 模型训练及评估;

  • 预测结果;

99e597b751b4af2e96154352bd9b2731.png

这里我们以Kaggle上的一个竞赛Cats vs. Dogs(猫狗大战)为例来进行简单介绍,感兴趣的可亲自实验。

1. 现实问题抽象为数学问题

现实问题:给定一张图片,让计算机判断是猫还是狗?

数学问题:二分类问题,1表示分类结果是狗,0表示分类结果是猫。

2.数据准备

数据下载地址:
https://www.kaggle.com/c/dogs-vs-cats。

下载 kaggle 猫狗数据集解压后分为 3 个文件 train.zip、 test.zip 和 sample_submission.csv。

train 训练集包含了 25000 张猫狗的图片,猫狗各一半,每张图片包含图片本身和图片名。命名规则根据 “type.num.jpg” 方式命名。

080da13001044f6235c186d2372f406d.png

训练集示例

test 测试集包含了 12500 张猫狗的图片,没有标定是猫还是狗,每张图片命名规则根据“num.jpg”命名。

c1a8240d22c360a704dd30e318b84de6.png

测试集示例

sample_submission.csv 需要将最终测试集的测试结果写入.csv 文件中。

1cf0b9c2c754e94b9d0feac152d33a80.png

sample_submission示例

我们将数据分成3个部分:训练集(60%)、验证集(20%)、测试集(20%),用于后面的验证和评估工作。

db2ad6497014556845494acb383bef3b.png

3.选择模型

机器学习有很多模型,需要选择哪种模型,需要根据数据类型,样本数量,问题本身综合考虑。

如本问题主要是处理图像数据,可以考虑使用卷积神经网络(Convolutional Neural Network, CNN)模型来实现二分类,因为选择CNN的优点之一在于避免了对图像前期预处理过程(提取特征等)。猫狗识别的卷积神经网络结构如下面所示:

最下层是网络的输入层(Input Layer),用于读入图像作为网络的数据输入;最上层是网络的输出层(Output Layer),其作用是预测并输出读入图像的类别,由于只需要区分猫和狗,因此输出层只有2个神经计算单元;位于输入和输出层之间的,都称之为隐含层(Hidden Layer),也叫卷积层(Convolutional Layer),这里设置3个隐含层。

4.模型训练及评估

我们预先设定损失函数Loss计算得到的损失值,通过准确率Accuracy来评估训练模型。损失函数LogLoss作为模型评价指标:

4c8b98e1b5ab1ae58d4d2b984eef1f8e.png

e387c99c1c40950832c83c4955a418de.png

准确率(accuracy)来衡量算法预测结果的准确程度:

4c46d5f7f2013bcbc9c4cb129e757582.png

TP(True Positive)是将正类预测为正类的结果数目。

FP(False Positive)是将负类预测为正类的结果数目。

TN(True Negative)是将负类预测为负类的结果数目。

FN(False Negative)是将正类预测为负类的结果数目。

a0bdf7f761f0dc7e43811348c331979f.png

训练过中的 loss 和 accuracy

5.预测结果

训练好的模型,我们载入一张图片,进行识别,看看识别效果:

2de37252dc150448d12199e3f387388c.png

机器学习趋势分析

机器学习正真开始研究和发展应该从80年代开始,我们借助AMiner平台,将近些年机器学习论文进行统计分析所生成的发展趋势图如下所示:

bbd962087a094d7b132ccef892a22cae.png

可以看出,深度神经网络(Deep Neural Network)、强化学习(Reinforcement Learning)、卷积神经网络(Convolutional Neural Network)、循环神经网络(Recurrent Neural Network)、生成模型(Generative Model)、图像分类(Image Classification)、支持向量机(Support Vector Machine)、迁移学习(Transfer Learning)、主动学习(Active Learning)、特征提取(Feature Extraction)是机器学习的热点研究。

以深度神经网络、强化学习为代表的深度学习相关的技术研究热度上升很快,近几年仍然是研究热点。

最后,引用韩愈《进学解》中的一句话:

“业精于勤,荒于嬉;行成于思,毁于随。”

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

d03786e77b67f6c17d1b8c5d136965d0.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481959.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

在弱肉强食的世界里,人类的美德意识为何能够超越其他物种?

来源:混沌巡洋舰本文摘编整理自《人性悖论:人类进化中的美德与暴力》 中信出版集团 2022年6月狭隘利他主义假设,战争可能导致自我牺牲,似乎只适用于其文化效应方面,而不能解释为进化上的选择力量。然而,该理…

一场关于物理学本质的争论:实验是检验科学的唯一标准吗?

来源:本文经公众号“环球科学ScientificAmerican”(ID: huanqiukexue)撰文:马西莫皮柳奇(Massimo Pigliucci)翻译:叶宣伽审校:丁家琦为了统一广义相对论和量子力学而建立的弦理论&am…

搭建分布式环境:Dubbo+Zookeeper

QUESTION:搭建分布式环境:DubboZookeeper? ANSWER: 一:官网下载Zookeeper 点击官网:Zookeeper,进行下载。 下载完成,解压缩到文件。 二:配置启动Zookeeper 进入conf目录,复制zoo_sample.cfg一…

AI 界著名「嘴炮」发声:鬼扯,LaMDA 不可能觉醒!

来源:AI科技大本营作者:郑丽媛来源:CSDN因谷歌工程师 Blake Lemoine 坚称谷歌语言模型 LaMDA 已觉醒,这几天 LaMDA 已频繁登上国内外科技网站首页,其相关热门话题无一不是围绕“LaMDA 是否真的觉醒?”、“L…

AI 正在引领一场新型科学革命

来源:AI科技评论作者:Bryan McMahon编译:bluemin编辑:陈彩娴自20世纪50年代DNA被发现以来,生物学家一直试图将基因序列的长度与一系列细胞成分和蛋白质合成过程联系起来,例如,包括为现在著名的m…

西安交大团队开发了一种混合深度学习模型,用于在基因组中识别启动子

来源:ScienceAI编辑:萝卜皮人类的大部分细胞中,每时每刻都在进行着各种复杂的转录过程;这一过程与后续的蛋白质合成息息相关,从而会影响人体中各类酶、抗体、激素、免疫因子等生物分子的产生,最终影响人的身…

在科学史上,“革命”意味着什么?

来源:《科学哲学的历史导论》、思庐哲学(siluphilosophy)作者:约翰洛西对正统学说的诸多批评有一种累积的效果。许多科学哲学家渐渐认为,用形式逻辑范畴来重建科学时会失去一些至关重要的东西。在他们看来,…

SpringBoot整合Dubbo+Zookeeper进行分布式搭建系统

QUESTIONl:SpringBoot整合DubboZookeeper进行分布式搭建系统? ANSWER: 一:创建项目模块 1.1.创建一个Empty Project 名称:Dubbo 1.2.创建一个Provider模块 这里采用SpringBoot快速搭建。 1.3.创建Consumer模块 创建完成后代码架构: 二&am…

2023年全球前端大技术大会(GMTC北京站2023)-核心PPT资料下载

一、峰会简介 大会以“业务至上,效率为王”为主题,策划了 1 个主会场,10 个技术专场。会议议题包含前端 DevOps 实践、低代码、大前端监控、跨端技术选型、团队可持续发展、IoT 动态应用开发、移动端性能与效率优化、TypeScript、大前端技术…

人工智能并不像你想象的那么迫在眉睫

来源:AI前线作者:Gary Marcus策划:孙瑞瑞如果你仔细观察就会发现,最新的系统,包括 DeepMind 大肆宣传的 Gato,仍然被同样的老问题所困扰。在普通人看来,人工智能(AI)领域…

从感知机到Transformer,一文概述深度学习简史

来源:机器之心作者:Jean de Dieu Nyandwi这篇文章从感知机开始,按照时间顺序回顾了深度学习的历史。1958 年:感知机的兴起1958 年,弗兰克 罗森布拉特发明了感知机,这是一种非常简单的机器模型,…

深度学习的综述的综述

来源:知乎文章来源:https://zhuanlan.zhihu.com/p/85625555“ 综述永远是入门新领域的最快捷径之一!”2018年下半年an发的一篇综述类文献,好心的机器之心已经翻译好了,我就直接复制下来修改一下表述的错误和补充&#…

Docker添加或者更改容器的端口映射

QUESTION:Docker添加或者更改容器的端口映射? ANSWER: 初学Docker容器,按照教程的基本命令,拉取创建了几个容器,都是在一开始新建的时候 docker run -p 指定对应的端口,但对于docker start 没有这个功能&…

新书推荐:人工智能通识讲义

中国科学院大学经济与管理学院 副院长 中国科学院虚拟经济与数据科学研究中心 副主任 田英杰 目前,新一代人工智能(AI)技术处于爆发期之后的深化期,各行业都需要大量的具备AI技术素养的专业人才,人们的日常生活已经和A…

清华大学联手中科院顶会发文:全面分析四大自动驾驶策略

来源:新智元当前自动驾驶的策略研究还停留在具体场景执行具体策略,最近清华大学的研究人员在交通领域的顶会发表了一篇全面的综述,从更高级的角度分析自动驾驶策略。当自动驾驶遇见会车,应该抢先通过,还是等待让行&…

是什么让人类的大脑比其它动物更聪明?

Lena Vargas来源:六六脑在认知领域,人类有着无与伦比的卓越性。毕竟,还没有哪一个物种能向陌生的星球发射探测器,研发出可以挽救生命的疫苗,以及写出能够流芳百世的诗歌。人脑是如何处理信息的?人们对这一问…

MongoDB:SpringBoot有关@Document(collection = )与@Document(collation= )注解的区别

目录 QUESTION:SpringBoot有关Document(collection "")与Document(collation "")注解的区别? ANSWER: 一、问题原因 二、分析 2.1 Collection Id Document Indexed CompoundIndex Field Transient DBRef 2.…

清华大学药学院丁胜团队在《自然》发表突破性全能干细胞创新研究

来源:清华大学药学院最新科研速递 清华大学药学院丁胜教授及其团队首次发现全能干细胞的体外定向诱导及其稳定培养的药物组合,该突破性研究被国际顶级学术期刊《自然》(Nature)于北京时间2022年6月21日在线发表。该研究标…

RocketMQ:Linux下启动server和broker的命令

目录 QUESTION:RocketMQ:Linux下启动server和broker的命令? ANSWER: 一、启动mqnamesrv 1.1当前执行 1.2后台运行 二、启动mqbroker 2.1当前执行 2.2后台运行 QUESTION:RocketMQ:Linux下启动server和broker的命令? ANSWER: 一、启动mqnamesrv …

美国人如何看待超自然?

来源:返朴撰文:李品保原文刊载于《中华读书报》2022年6月22日期,《返朴》经授权发表。寻求超自然现象不是一种对理性的非理性反应,而是一种他择性合理性,也可将其视为美国人特定不安分的额外调解,这种不安分…