机器学习虽好,也要看什么场合!

来源:AI科技评论

编译 | 王念

编辑 | 丛末

身为AI时代的程序猿,我们天生就对数据集敏感。因此,当我们拿到一批真实数据时,激动之情肯定溢于言表!举例来说,我们可能拿到了一组患者正确药量的数据集,它长成这样:

数据集的地址:http://bit.ly/quaesita_slkid

其中每个数据点包括两个部分:输入特征是某位患者当前的治疗日(Treatment Day),而输出结果是ta在60天疗程内应该服用的药物剂量,单位是毫克。身为AI工(cheng)作(xu)者(yuan)的我们,第一时间就会想到建立一个回归模型,辅助医生根据输入的治疗时长特征,给出所推荐的药物剂量。So easy~

但是我们把模型的事儿先放一边,当我们以人类的角度来利用数据,假如有个病人正在处于第2个治疗日,你会怎样为他推荐用药剂量呢?

聪明如你肯定一眼就知道,17毫克!你看数据集里都有完全相同的场景嘛~ 那如果是第4个治疗日呢?41毫克没毛病呀!

那现在问题来了,在这种场景下如果我们使用机器学习方法建立一个回归模型,是不是更高大上、更有效呢?换句话说,当我们使用计算机学习这些数据模式的时候,会不会导致一些意想不到的问题呢?

答案是否定滴。我们可以用最简单的“查表”模型嘛,给一个输入,然后寻找它所对应的取值就行了。python里建立一个dict就完事儿了。但是注意,我们只有60天的数据,如果输入的特征取值<=60,那没问题,查表模型的输出肯定完全正确。这不需要建立模型,也不需要什么高深的机器学习理论。

 1

什么时候要用机器学习?

那在什么情况下我们需要使用机器学习呢?

当然是输入训练集中没有的数据啦!比如说突然来了一个正处于第61个治疗日的患者,我们怎么办?

这时候查表模型就蒙了,它没见过输入是61的情况啊,超纲了……那这种情况下我们应该怎么做呢?抱怨运气不好?胡乱回复一个数字?还是像郭德纲一样扔鞋占卜?……唔……诶?!机器学习是不是能帮我们搞定这种情况?

没错儿!

但是话说回来,如果这个输入和输出之间压根儿没什么联系的话,机器学习也爱莫能助。就好比面对一堆毫无逻辑的随机数据,算命先生也拿不准下一个要来的是啥……

1、我们必须找到隐藏的数据模式

但是,假如说(只是假如)数据具有固定的分布模式,而且我们还能够找出这个模式来,那么我们就能利用这个模式来预测(或者说……猜)第61个治疗日的患者的正确用药量了。这种情况下,机器学习才能派上用场。

2、数据模式一定要有泛化性

我们要学习和寻找的数据模式一定要对未来的数据具有泛化性才行。否则我们的模型就只对已经存在的数据拥有良好的拟合能力,但是对于未知的数据呈现极大的误差,那这个模型肯定不好用。

比如说上面的例子中,数据模式就可能分成两种:前60天是一种模式,而从61天开始就变成另一种模式(比如从第61天开始所有的患者都死了或者都痊愈了,就不用服药了)。那就算我们找最厉害的教授使用最顶级的机器学习模型和技巧,也只能让它仅对前60的数据具有良好的预测性能,但是从61天开始,模型对已有模式学习得再好也无济于事。

具体了解泛化的含义,可阅读这篇文章:https://towardsdatascience.com/the-most-powerful-idea-in-data-science-78b9cd451e72

3、巨变的外界条件

进一步接茬儿说哈。如果我们的数据没办法表现出未来要发生的事情,或者说未来的数据规则和现在完全不同了(也许因为一场瘟疫、地震、战争或者其他不可抗拒力),那我们已有的数据集质量再高、数据模式学习得再好也没用。笼统一点来讲,如果我们研究的是这个宇宙中某个极不稳定的某种数据,那机器学习的遍历性和平稳性假设就无法满足了。这种的场景下所训练出的机器学习模型会频频出错,因为模型总是会觉得“外界数据的规则和模式稳定不变”。

不了解遍历性假设的同学,可参考:https://en.wikipedia.org/wiki/Ergodicity

不了解平稳性假设的同学,可参考:https://bit.ly/stationaritya

这里说的不平稳性不是指在局外人眼中的那种主观的不平稳现象,比如商品的均价随着时间而逐渐增加,这是由于通货膨胀的原因。像通胀这种平稳的、可以学习的不稳定性,是能够通过时间序列分析技术来解决的。我们这里所说的不平稳性是指由于各种变故或不可抗拒因素而导致的突发事件。

这种不平稳性是一种粗暴的、毫无章法的现象。对于这种问题我们无可奈何,因为它的发生不以你的意志为转移,它客观而不羁地发生着、存在着,我们所处的次元规则系统完全不同。它就像个显示屏坏了的定时炸弹,你根本不知道它什么时候改变自己的数据模式,也不知道它什么时候爆炸。

所以在这种情况下,我们可能费尽千辛万苦学习到了已有的模式,但是一夜之间啥都变了,规则不是以前的规则了,你大爷也不是以前的大爷了……如此一来,模型的性能肯定会大打折扣(根本不能用了好不好)。

4、如果一切顺利的话!

但是如果数据集中的样本模式具有极好的泛化性,它又能稳定的表达出未来将要发生的事情,那就太棒了!这时候就别犹豫了,尽情利用机器学习方法寻找已有数据中的样本模式吧!然后一切水到渠成~别说第61天的剂量,就算是第661天的数据我们都能给你预测出来!

找到并且利用数据集中隐藏的样本模式是机器学习的关键。

机器学习和人工智能技术不是用来重复已经见过的例子。对于已有数据的重复就是查表而已,搜索一下数据库就能解决,杀鸡焉用宰牛刀?记住,机器学习是用来学习数据中隐藏的数据模式的。

重复已有的答案算什么本事?机器学习能对没见过的新情况进行解决!

程序猿可能会问,事儿都让你干了,那我的任务是啥?答案很简单,就是构建一个成功又通用的解决方案。你问我啥叫成功?

我曾写了一整篇文章来讨论这个问题:https://medium.com/hackernoon/the-decision-makers-guide-to-starting-ai-72ee0d7044df

模型说,这不是猫!

换句话说,如果我们的模型无法处理已有数据集中没见过的新样本,那它就很失败了。新样本再奇怪也是按照固定模式分布的,它不会打破数据的平稳性假设,它充其量会让学到的模式有所偏移。

机器学习不是鹦鹉学舌,死记硬背已有数据集是没用的。机器学习的魅力和强大之处在于,它能够从已有数据中概括和抽象出数据背后的规则,从而普适地应用于新的场景。

所以咱们啰嗦了这么半天,如果这时候你遇到了一个已有数据集中未曾出现的样本(比如第61个治疗日的样本),你会怎么给出结果呢?

当然是先从已有数据集中总结样本的模式,然后根据这个模式做出一个合理的预测了!

但是机器学习也是有自己的专属职责的,你训练它干什么,它就能够也只能够做这个任务。就比如当我们使用了上千张动物照片训练了一个区分猫(就是根据输入图片判断是不是喵星人)的分类器,那么当我们输入一个新样本的时候,它就能告诉我们图片中是否包括猫咪。但是如果你想让它告诉你这个输入的图片是不是毕加索的真迹的时候,少年你就想多了 ……

2

机器学习对你适用吗?

当我们说起机器学习的时候,你的朋友或者老师通常会故作高深地跟你说,它是一个事件标签的标记者,或者是一种人类规则代码的高级取代者。云里雾里……为了让你更容易的理解机器学习,我们换个角度对其进行介绍。

机器学习是一个全自动的决策器,它的功能包括对数据模式的学习(总结大师),以及应用该模式对新数据进行判别和预测(执行大师)。

当你不知道机器学习方法是否适用于你研究的问题时,可以仔细看看下面这三篇文章~

  • Is your ML/AI project a nonstarter? A 22-item reality check(list),http://bit.ly/quaesita_realitycheck

  • Advice for finding ML/AI use cases,http://bit.ly/quaesita_island

  • Getting started with ML/AI? Start here!  http://bit.ly/quaesita_dmguide

 3

那么,能找到这个隐藏模式吗?

所以兜了这么大的圈子之后,第61天到底应该让患者吃多少药呀?其实在我上面给出的这个看似杂乱无章的例子中隐藏着一个十分稳定的数据模式。你问我怎么知道的,当然了,这数据集是我编的我肯定知道哈哈哈。

这个模式……嗯……就是我将脑袋里突然蹦出的那个最大的数+1……(作者可真欠揍)我之所以这么做,是因为我发现处理这些具有很强变数的数据是一种乐趣(更欠揍了!)。

虽然数据的模式很奇葩,但这也不失为一种数据产生的模式。对于那些喜欢挑战的小盆友,你们不妨试试多用几种机器学习算法来找出这套看似十分随机的数据集中的模式,说不定你们就能研发出一套针对我的读心术模型呢~来来来,留言区告诉我你们觉得第61天应该用多少剂量呢!(好期待呀,因为我还没有编出来呢)

我知道肯定有不少人会使用传统的统计分析学方法来给出的答案,但是你开心就好~黑猫白猫,抓到老鼠的就是好猫~

想要了解统计分析方法和机器学习的区别请戳这里:http://bit.ly/quaesita_history2

via https://towardsdatascience.com/when-not-to-use-machine-learning-or-ai-8185650f6a29

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/487619.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CVTE前端笔试编程题

这些题目是做完笔试之后&#xff0c;在别的地方找到的&#xff0c;现在附上。 1.(1)这题考察的怎么把参数转换为数组&#xff0c;然后再截取你想要的位数。 function C(){var a_argsArray.prototype.slice.call(argumens,0,2);var b_argsArray.prototype.slice.call(arguments,…

springboot 引入jdbc驱动_SpringBoot+MyBatis+Druid整合demo

最近自己写了一个SpringBootMybatis&#xff08;generator&#xff09;druid的demo1. mybatisgenerator逆向工程生成代码1. pom文件pom文件添加如下内容&#xff0c;引入generator插件<!-- mybatis代码生成插件 --><!--如果使用的mysql驱动是6.x的&#xff0c;那就无法…

盘点|世界流行的十大机械工程设计软件,你会用几种?

来源&#xff1a;自机械前线机械设计是机械生产的第一步&#xff0c;是决定机械性能的最主要的因素。为了满足机械产品性能的高要求&#xff0c;在机械设计中大量采用计算机技术进行辅助设计和系统分析&#xff0c;以下是目前世界上流行的十款式机械工程设计软件。1、Autodesk …

SpaceX再发射58颗星链卫星 总数达到538颗

来源&#xff1a;网易智能据外媒报道&#xff0c;在距离上次星链&#xff08;Starlink&#xff09;卫星发射仅仅10天后&#xff0c;美国太空探索技术公司SpaceX于当地时间周六再次发射了最新一批星链卫星。与以往每批发射60颗星链卫星不同的是&#xff0c;SpaceX此次只发射了58…

MVC系列——MVC源码学习:打造自己的MVC框架(一:核心原理)(转)

阅读目录 一、MVC原理解析 1、MVC原理二、HttpHandler 1、HttpHandler、IHttpHandler、MvcHandler的说明2、IHttpHandler解析3、MvcHandler解析三、HttpModule 1、HttpModule能干什么2、HttpModule的使用3、HttpModule和HttpHandler如何区分4、UrlRoutingModule解析 四、总结正…

python中的画布背景设置_教你用python画图—Turtle详细教程

Turtle模块绝对是吸引非专业代码开发者人员学习python入门的好工具通过turtle几行代码的执行软件就会画出漂亮的图形&#xff0c;美观而且有成就感&#xff0c;这样一下子对python编程就产生了兴趣。这些漂亮的图形如三角形、五角星、机器猫等。在写代码的时候改变几个参数&…

城市大脑,是工程问题,但首先是基础科学问题

2020年&#xff0c;在5G&#xff0c;大数据&#xff0c;人工智能、区块链、新基建等一轮轮科技浪潮下&#xff0c;城市大脑开始逐步成为新的城市建设和前沿科技热点。到2020年6月已经有近500多个城市宣布建设“城市大脑”&#xff0c;包括阿里&#xff0c;华为&#xff0c;百度…

JOptionPane弹框常用实例

最近在做swing程序中遇到使用消息提示框的&#xff0c;JOptionPane类其中封装了很多的方法。 很方便的&#xff0c;于是就简单的整理了一下。 1.1 showMessageDialog 显示一个带有OK 按钮的模态对话框。 下面是几个使用showMessageDialog 的例子&#xff1a; Java代码 JOption…

从5G到6G的思考:需求、挑战、技术趋势

来源&#xff1a;5G作者&#xff1a;易芝玲&#xff1a;中国移动首席科学家。王森&#xff0c;韩双锋&#xff0c;崔春风&#xff1a;中国移动通信研究院。王亚峰&#xff1a;北京邮电大学信息与通信工程学院。未来智能实验室的主要工作包括&#xff1a;建立AI智能系统智商评测…

VS2017C++单元测试

0、欢迎食用 希望对点进来的你有所帮助。全文记流水账&#xff0c;内心想法如示例项目名称。1、建立需测试的项目 新建项目正常书写.h 和.cpp文件2、新建单元测试 右击解决方案 -> 添加 -> 新建项目 Visual C -> 测试 -> 本机单元测试项目点击确定出现3、添加被测项…

ncf 推荐系统_浅析神经协同过滤NCF在推荐系统的应用

NCF在推荐领域应用背景CF&#xff0c;也就是协同过滤&#xff0c;在推荐领域有极其广泛的应用&#xff0c;应该没有谁的智能推荐系统是没用到过CF的。CF其实就是挖掘user和item的交互关系&#xff0c;然后生成I2I或者U2I表示向量。传统的CF从数学角度上还是偏行为统计计算的&am…

2020身高体重标准表儿童_2020年儿童标准体重表出炉!过胖影响发育!(附身高体重标准表)...

近年来&#xff0c;孩子们长胖的趋势越来越明显&#xff0c;一些疾病也有年轻化的趋势。很多家长们平时也很注意饮食搭配和运动&#xff0c;但孩子还是一不小心就“超重”了&#xff0c;真的防不胜防。相信和我一样担忧孩子家长肯定不少。今天就来和大家讲讲&#xff0c;关于孩…

游戏的未来是什么?

“我们还没有真正跨过VR 1.0&#xff0c;无绳VR要么不可靠要么非常贵。我们正在朝VR 2.0发展&#xff0c;用的是眼球追踪&#xff0c;有更大的视野、更高的分辨率、更好的音频和六个自由度&#xff0c;但这些领域仍需要进一步研究。”来源丨Forbes作者丨Matt Gardner编译丨科技…

AI仿生:人类进化新可能

来源&#xff1a; 脑极体看过《银翼杀手》这部开创赛博朋克风格科幻电影的人&#xff0c;一定会对电影中仿生人罗伊贝蒂印象深刻&#xff0c;尤其是电影结尾时反派男主在滂沱大雨中的临终独白&#xff1a;我目睹过你们绝对不会相信的东西&#xff1a;战舰在猎户星座的边缘燃烧&…

python 获取 字典中的指定键_python中字典方法的详细教程

上篇文章讲到了python字典的基础知识&#xff0c;今天继续python中哈希(字典的应用)方法的应用。前章回顾&#xff1a;python字典的应用及案例分析字典方法&#xff1a;dict.clear() 删出字典内所有的元素。dict.copy() 返回字典的一个浅复制。dict.fromkeys(seq[,val]):创建一…

事务基本信息

一、事务的定义 事务&#xff08;Transaction&#xff09;是由一系列对系统数据进行访问与更新的操作所组成的一个程序执行逻辑单元&#xff08;Unit&#xff09;&#xff0c;侠义上的事务特质数据库事务。1&#xff09;当多个应用程序并发访问数据库时&#xff0c;事务可以在这…

android 人脸识别_小模型,高精度!小视科技推出极致轻量型人脸识别SDK

AI 落地为王时代的到来&#xff0c;使得人脸识别的精度和速度备受人们关注。近年来&#xff0c;随着模型压缩、量化技术的进步&#xff0c;模型运行速度也越来越快。对于一些特定的人脸检测任务&#xff0c;轻量型的人脸识别SDK即可满足需求。▲图源网络轻量级架构的显著特征便…

机器视觉基础知识详解

来源&#xff1a;工业机器人随着工业4.0时代的到来&#xff0c;机器视觉在智能制造业领域的作用越来越重要&#xff0c;为了能让更多用户获取机器视觉的相关基础知识&#xff0c;包括机器视觉技术是如何工作的、它为什么是实现流程自动化和质量改进的正确选择等。小编为你准备了…

截屏没有了_华为手机居然有6种截屏花招,很多人不知道,你会用哪几种?

华为手机越来越受国民的欢迎&#xff0c;而且华为手机的功能挺多挺实用的。就比如&#xff1a;支持画“一”进行分屏操作&#xff0c;可以让我们一边追剧一边聊天&#xff0c;真的特别方便。我使用华为手机也已经有三个年头了&#xff0c;在日常生活中看到一些有用的内容&#…

科技巨头纷纷从刷脸转向“刷手”,指纹如何扛起生物识别大旗?

来源&#xff1a;CSDN日前&#xff0c;IBM 高调宣布不再提供任何人脸识别服务和人脸分析软件及不再继续研发相关技术&#xff0c;正式退出市场。紧随其后&#xff0c;亚马逊也宣布&#xff0c;将暂停警方使用其人脸识别技术一年&#xff0c;转向扫描手掌特征来识别用户身份。人…