统计学习导论_统计机器学习之扫盲导论篇

机器学习之扫盲导论篇

来都来了,不关注一下吗??

   人工智能是当下最火的词,而机器学习就是它的灵魂。

6e156ebe20d8fe3c8fd91b687ba4b90a.png

    现在超级多搞金融的人已经用到很深的机器学习模型了,更别提互联网企业的大佬们了a622270375523c396b710ab89fb2c1f6.pnga622270375523c396b710ab89fb2c1f6.png,比如:

                       (这是一篇研报)

8fea6f7a1ca53c4a21fd4dc5ae513792.png

    db5790781440d53ed5d6d5737fdb42a6.png

(这真的是某券商金工团队出的一篇研报)

    更夸张的是,发现我校的“信息xxxx学院”在几年前偷偷改名为“人工智能学院”(还是我走夜路偶然发现的,抓住你了2eadae7939cf182db917f227cfd64070.png2eadae7939cf182db917f227cfd64070.png)

155769aee0efb2a691bc0710d9bb4d31.png

exmmmm 足以说明它的火爆程度

c3892f03f1dd830c6a57ab03723a7ab2.png

    那么就别躲着着了,赶紧上车跟上这波潮流。让我们大声喊出口号: “机器学习,没有你想象的那么难。”

a1dddef3398264114368c9186ea7c2d8.png

    机器学习(Machine learning)是一门科学,准确的来说是一门关于算法的科学。

    那么统计机器学习大致分为四类:监督学习、无监督学习、半监督学习和强化学习。下面一一来为大家扫个盲。

1

监督学习

    监督学习(supervised learning)是指从标注数据中学习预测模型的机器学习问题。标注数据表示输入输出对应关系,预测模型对给定的输入产生相应的输出。监督学习的本质是学习输入到输出的映射的统计规律。

    通俗来说,就是给定数据,预测标签。每一个训练数据(training data)都是有特征和标签的。那么什么是特征和标签呢?

    非常简单,我举一个例子。比如银行的贷款部门,每一个客户的基本情况都属于特征,包括他们的性别、年龄、工作单位类型、工资、目前在名下的房子价值、有无不良贷款记录等等。那么什么是标签?就是评估完这些特征之后,银行最终的决定:是否放贷给客户。

ID姓名性别年龄工资工作单位有无不良记录是否贷款
1高高3015国企
2周周2313个体
3乐乐2715个体
4新新3530个体

            ...........

    好的,这是我们的训练数据,也就是training data,那么问题来了:如果再来一个人,他同样可以提供特征数据,那么能预测是否贷款吗?这就是监督学习。

ID姓名性别年龄工资工作单位有无不良记录是否贷款
9方方2530国企

    一句话概括监督学习:给定数据(特征),预测标签。

    常见的监督学习算法:K近邻(KNN),决策树(DT),朴素贝叶斯(NB),逻辑回归(LR),支持向量机(SVM)等等

2

无监督学习

    无监督学习(unsupervised learning)是指从无标注数据中学习预测模型的机器学习问题。无标注是自然得到的数据,预测模型表示数据的类别、转换或概率。无监督学习的本质是学习数据中的统计规律或潜在结构。

    无监督学习常常被用于数据挖掘,用于在大量无标签数据中发现些什么。它的训练数据是无标签的,训练目标是能对观察值进行分类或者区分等。例如无监督学习应该能在不给任何额外提示的情况下,仅依据所有“猫”的图片的特征,将“猫”的图片从大量的各种各样的图片中将区分出来。

    可以想象,恰当地提取特征是无监督最为关键的环节。在老虎的识别中,我们来尝试提取老虎的特征:皮毛、四肢、耳朵、眼睛、胡须、牙齿、舌头等等。通过对特征相同的动物的聚类,可以将猫或者猫科动物聚成一类。但是此时,我们不知道这群毛茸茸的东西是什么,我们只知道,这团东西属于一类,兔子不在这个类(耳朵不符合),飞机也不在这个类(有翅膀)。特征有效性直接决定着算法有效性。如果我们拿体重来聚类,而忽略体态特征,恐怕就很难区分出老虎和豹子了。

ee593ecf1c0f1269b66953c0f3bcf81a.png

   再比如,孩子在一开始认识事物的时候,父母会给他一些苹果和橘子,但是并不告诉他哪儿个是苹果,哪儿个是橘子,而是让他自己根据两个事物的特征自己进行判断,会把苹果和橘子分到两个不同组中,下次再给孩子一个苹果,他会把苹果分到苹果组中,而不是分到橘子组中。

41028699ad1f51c172d202350c1100e6.png

    一句话概括:给定数据,寻找隐藏的结构。

    常见的无监督学习算法:K-means聚类,主成分分析PCA等等

3

半监督学习

    半监督学习(semi-supervised learning)是指利用标注数据和未标注数据学习预测模型的机器学习问题。通常有少量标注数据、大量未标注数据,因为标注数据的构建往往需要人工,成本较高,未标注数据的手机不需要太多成本。半监督学习旨在利用未标注数据中的信息,辅助标注数据,进行监督学习,以较低的成本达到较好的学习效果。

    使用的数据,一部分是标记过的,而大部分是没有标记的。和监督学习相比较,半监督学习的成本较低,但是又能达到较高的准确度。综合利用有类标的和没有类标的数据,来生成合适的分类函数。

4

强化学习 

    强化学习(reinforcement learning)是指智能系统在于环境的连续互动中学习最有行为策略的机器学习问题。假设智能系统与环境的互动基于马尔可夫决策过程,智能系统能观测到的是与环境互动得到的数据序列。强化学习的本质是学习最优的序贯决策。

    比如说训练一只小狗做动作,在它最对动作的情况下奖励骨头,再比如AI解游戏问题等等都属于强化学习,是可以通过一些方法知道你是离正确答案越来越近还是越来越远(奖惩函数)。可以把奖惩函数看作正确答案的一个延迟、稀疏的形式。可以得到一个延迟的反馈,并且只有提示你是离答案越来越近还是越来越远。

(注明:本文提到的定义均直接采用李航老师的《统计学习方法》)

    是不是觉得机器学习也没有想象中那么神秘?我后期争取一周更一篇机器学习的推文,一起进步呦!3d526634a0cb5244b96ca83646791513.png219b789e2cf1c0fa9aa51cf48af93f50.png

015da8c25cfbb52283e901290d9c8ce8.png

记得关注喵  

c9c62bbf2b7085dc44595bf46c52715a.png

留言板

c88ff7723ffcabd60300b98ed9c4b567.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/305053.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[Abp 源码分析]异常处理

点击上方蓝字关注我们Abp 框架本身针对内部抛出异常进行了统一拦截,并且针对不同的异常也会采取不同的处理策略。在 Abp 当中主要提供了以下几种异常类型:异常类型描述AbpExceptionAbp 框架定义的基本异常类型,Abp 所有内部定义的异常类型都继…

phpstorm设置 打开文件所在目录_PDF文件在线分享并设置打开次数

公司有一些重要的PDF文档,怎么才能防止外泄?如何加密PDF文件防止被人复制了?怎样让PDF不能被别人拷贝啊? 这些问题困扰了一部分想让别人看pdf内容又担心别人泄露的人。本文用maipdf网站的例子来进行设置。首先我们打开maipdf的网站…

荐号 | 11个人工智能与大数据相关的个人、企业优质号

AlphaGo Zero都会自学了,作为刚刚步入AI大门的我们,应该如何选择合适自己的知识平台呢?今天小编为你甄选了几个高质量的技术公众号。 这些号更多的不是讲授枯燥的理论,而是从行业资讯、一线技术、应用案例、职场发展等多个角度分享…

以表达式作为参数传入SQL的存储过程中去

在开发过程中,需要把一句Sql 的expression作为一个参数传入Procedure中去。 在asp.net中,一个Search的动作,把用户所操作的搜索条件写成了一句表达式,现只需要把这句表达式传入存储过程中去,与存储过程中的Sql的Select…

围棋中的数学原理

围棋一向被誉为是人类大脑智慧的专利,围棋的走法,几乎和宇宙中原子数量相同,甚至更多,每回合有250种可能,一盘棋可以长达150个回合,共有1后面再加360个0种下法,这样的计算量,对计算机…

spring boot 缓存_Spring Boot 集成 Redis 实现数据缓存

Spring Boot 集成 Redis 实现数据缓存,只要添加一些注解方法,就可以动态的去操作缓存了,减少代码的操作。在这个例子中我使用的是 Redis,其实缓存类型还有很多,例如 Ecache、Mamercache、Caffeine 等。Redis 简介Redi…

.md是什么文件_Element-UI源码阅读之md显示到页面

入口文件首先,看一个项目的入口,可以从package.json中去看它的运行命令 可以看到dev那行,执行了很多脚本: npm run bootstrap && npm run build:file && cross-env NODE_ENVdevelopment webpack-dev-server --con…

linux误删ssh不上,误删openssh-server删除,复原操作

在别的节点上寻找openssh的程序有哪些:而我的这个节点上只有一个openssh-clines,所以,就先利用了yum install openssh-server进行安装,但是这个安装的是最新的 openssh-server-5.3p1-122.el6.x86_64.rpm,担心集群节点之…

我用 MySQL 干掉了一摞简历

临近过年,疫情又趋于平稳,最近出来面试的人也多了起来,我们公司也在招人。我发现,不少候选人,对数据库的认知还处在比较基础的阶段,以为会写“增删改查”、做表关联就足够了,那些工作中经常出现…

为什么AI工程师成为当前薪资最高的技术岗位

今年无疑是“人工智能”话题火热指数最高的一年。从腾讯西雅图AI实验室,百度斥资超过200亿投入人工智能研发,再到最近 Google 打算在中国进行AI领域的市场扩张,其母公司 Alphabet 更是在7月便成立专注AI领域的风投机构...全球都在风生水起、将…

spring boot jar包_「Spring Boot 新特性」 jar 大小自动瘦身

自动分析瘦身Spring Boot 项目最终构建处理 JAR 包大小一直是个诟病,需要把所有依赖包内置最终输出可运行的 jar。当然可以使用其他的插件扩展 实现依赖 JAR 和 可运行 jar 分离可以参考 slot-maven-plugin[1], 但此种方法治标不治本并不能减少原有依赖的 JAR 的大小…

设计模式在项目中的应用案例_设计模式在项目中的应用(初学者版)

文章首发链接:设计模式在项目中的实际应用(应试版)​mp.weixin.qq.com本文适用于设计模式初学者。很多人学习了设计模式,但在项目开发中仍然不知道如何使用;很多小伙伴在课堂上跟着老师稀里糊涂的听了,懂了…

微创社001期:从0开始创作第一本技术书

互联网已经成为了人们生活中如饮水空气一般的基础设施,它不仅影响着当下我们的生活,也必将在更加普遍的领域影响着我们的未来。而在大浪潮中,坚守一个以自我为中心的知识体系,不仅有助于我们作为个体更好的从互联网汲取养分&#…

关于虚拟机下linux共享Windows文件的解决方案

先跟大家说一下在windows下装的vmware,就是又在vmware的系统里虚拟了一个Linux的系统的话,我们有些朋友就是想法把物理机的东西拷贝到Linux虚拟机里时很是伤神,当然windows就很简单了,直接拖进去(如果你安装了vmware t…

10分钟让你快速掌握Excel的16项重要技巧

大家在日常生活、工作使用Excel时,是不是总会遇到很多问题呢? 不小心将文件命名错了,要一个个改? 文件里只需要数据却不知道怎么提取? 工作汇报要做数据汇总、需要插入大量图片怎么办? 甚至在耗费相当多的时间与精力…

linux中wine yum安装,分享|在基于RedHat或Debian的系统上安装 Wine 1.7

Wine,Linux上最流行也是最有力的软件, 可以顺利地在Linux平台上运行Windows程序和游戏。这篇文章教你怎么在像CentOS, Fedora, Ubuntu, Linux Mint一样基于Red Hat和Debian的系统上安装最新的Wine 1.7。在Linux安装 Wine 1.7不幸的, 在基于Red Hat的系统上没有官方的 Wine 仓库…

还不知道这 11 个超酷的编程新工具你就 out 了!

工具对开发人员来说至关重要。工具可以让一个开发人员的日常工作更高效,并且只需要关注最重要的事情。对于开发人员来讲,寻找更好的替代工具往往比坚持使用熟悉过时的工具更困难。 在这篇文章中,我们将列出你在日常工作中能够使用的新的开发工…

Linux装多个apache,windows linux如何安装多个apache?

富国沪深Windows下安装多个Apache服务:1.安装好Apache以后,可以在浏览器中输入http://localhost测试;2.更改第一个站点的根目录:在文件Apache2.2\conf\httpd.conf中查找 DocumentRoot 属性,将后面的路径改为你的主站点…

[Abp 源码分析]DTO 自动验证

点击上方蓝字关注我们0.简介在平时开发 API 接口的时候需要对前端传入的参数进行校验之后才能进入业务逻辑进行处理,否则一旦前端传入一些非法/无效数据到 API 当中,轻则导致程序报错,重则导致整个业务流程出现问题。用过传统 ASP.NET MVC 数…

五分钟搞懂并查集

并查集是我暑假从高手那里学到的一招,觉得真是太精妙的设计了。来看一个实例,杭电1232畅通工程。首先在地图上给你若干个城镇,这些城镇都可以看作点,然后告诉你哪些对城镇之间是有道路直接相连的。最后要解决的是整幅图的连通性问…