各类监督方法流行趋势分析

又到一年的年末了,到了进行总结并展望来年的时候了,在这里预祝各位新的一年顺利。闲话少叙,本文将对有监督学习方法进行总结。

机器学习领域在过去几十年中经历了巨大的变化,不可否认的是,虽然有些方法已经存在了很长时间,但仍然是该领域的主要内容。例如,最小二乘法( least squares)的概念在19世纪早期由勒让德和高斯提出,最基本的形式的神经网络( neural networks)早在1958年就引入的,并在过去的几十年中大幅提升、支持向量机(SVM)等方法则更是较新的方法,这些方法仍然占据了机器学习领域应用中的半壁江山。

随着科研的进行,有大量可用的监督学习方法被发明。使用者通常会提出以下问题:什么是最好的模型?众所周知,这个问题没有标准答案,因为模型的有用性取决于手头的数据以及具体处理的问题,合适的就是最好的。那么,可以转换下思路,换成这个问题:最受欢迎的模型是什么?这将是本文的关注点。

衡量机器学习模型的流行程度

出于本文的目的,使用频率论方法定义流行度。更确切地说,将使用提及个人监督学习模型的科学出版物的数量表示受欢迎的程度。当然,这种方法有一些限制:

  • 可能有比出版物数量更准确的表示方法;
  • 分析受所使用的搜索术语的影响;
  • 文献数据库并不完美;

因此,对于这篇文章进行了两次分析。第一个分析是对出版频率的纵向分析,而第二个分析则比较了不同领域与机器学习模型相关的出版物总数。

在第一次分析中,通过从谷歌学术搜索中搜索数据来确定出版物的数量,该数据考虑出版物的标题和摘要。为了确定与个人监督学习方法相关的出版物数量,统计1950年至2017年期间谷歌学术搜索的点击次数。由于抓取谷歌学术的数据非常困难,所以本文参考ScrapeHero提供的有用建议来收集数据。

在分析中包含了13种监督方法:神经网络、深度学习、SVM、随机森林、决策树、线性回归、逻辑回归、泊松回归、岭回归、套索回归( lasso regression)、k-最近邻、线性判别分析、以及对数线性模型。其中,对于套索回归,搜索时考虑了 lasso regression和套lasso model ;对于最近邻方法,搜索时术语有k-nearest neighbor和k-nearest neighbour,得到的数据集表示从1950年到现在,每个监督模型相关的出版物的数量。

从1950年到现在使用的监督模型

为了分析纵向数据,将时间段划分为两个时期:机器学习的早期阶段(1950年至1980年),几乎没有可用模型;以及形成时期(1980年至今),开发了许多新模型。

早期:线性回归占优势


从图1中可以看出,线性回归是1950年至1980年间的主导方法。相比之下,科学文献中极少提及其他机器学习模型。然而,从20世纪60年代开始,可以看到神经网络和决策树的普及开始增长。此外,还可以看到逻辑回归尚未广泛应用,在20世纪70年代末的数量仅略有增加。

形成年代:神经网络的多样化和兴起

图2表明,从20世纪80年代后期开始,出版物中提到的监督模型变得更加多样化。重要的是,文献中提到的机器学习模型的比率一直稳步增加,直到2013年。该图具体显示了线性回归、逻辑回归和神经网络的普及。正如之前所见,线性回归在1980年之前已经流行。然而,从1980年开始,神经网络和逻辑回归的普及开始迅速增长。虽然逻辑回归的流行度在2010年达到顶峰,该方法几乎变得像线性回归一样受欢迎,但近年来,神经网络和深度学习的流行程度甚至超过了2015年线性回归的流行程度。

神经网络已经变得非常受欢迎,因为它们已经在机器学习应用方面取得了突破,例如图像识别(ImageNet,2012)、人脸识别(DeepFace,2014)和游戏(AlphaGo,2016)等。来自谷歌学术的数据表明,文章中提到神经网络的频率在过去几年中略有下降(图2中未显示)。这可能是因为术语深度学习(多层神经网络)在某种程度上取代了术语神经网络的使用。

另外可以看到,稍微不那么受欢迎的监督方法是决策树和SVM。与前三种方法相比,提到这些方法的频率明显较小。另一方面,文献中提到这些方法的频率似乎也有较小的波动。值得注意的是,决策树和SVM的流行度都没有下降。在决策树和SVM之间,SVM似乎表现出更有利的增长趋势,因为SVM在发明后仅仅15年就成功超越了决策树。

不同领域的监督学习模型的受欢迎程度

在第二个分析中,想调查不同的领域是否依赖于不同的机器学习技术。为此,查询了三个科学出版物库:谷歌学术出版物、计算机科学出版物的dblp和生物医学科学出版物的PubMed。在三个库中统计了13个机器学习模型的命中频率。结果如图3所示。


图3表明,许多方法对各个领域都非常具体,下面分析每个领域中最流行的模型。

整体使用监督学习模型

根据谷歌学术搜索表明,最常用的五种监督模型如下所示:

  • 线性回归: 3,580,000(34.3%)篇论文;
  • 逻辑回归:2,330,000(22.3%)篇论文;
  • 神经网络: 1,750,000(16.8%)篇论文;
  • 决策树: 875,000(8.4%)份论文;
  • 支持向量机:684,000(6.6%)篇论文;

总体而言,线性模型显然占主导地位,占监督模型的统计率的50%以上。单非线性方法并不落后:神经网络占所有论文的16.8%,其次是决策树(8.4%的论文)和SVM(6.6%的论文)。

在生物医学科学中使用模型

根据PubMed,在生物医学科学中,最受欢迎的五种机器学习模型如下所示:

  • 逻辑回归: 229,956(54.5%)篇论文;
  • 线性回归: 84,850(20.1%)篇论文;
  • Cox回归: 38,801(9.2%)篇论文;
  • 神经网络: 23,883(5.7%)篇论文;
  • 泊松回归: 12,978(3.1%)篇论文;

在生物医学科学中,可以看到与线性模型相关的提及次数偏多:五种最流行的方法中有四种是线性的,这可能是由于两个原因造成的。首先,在医疗环境中,样本数量通常太小,无法拟合复杂的非线性模型。其次,模型解释结果的能力对医疗应用至关重要。由于非线性方法通常难以解释,因此它们不太适合医疗应用。

逻辑回归在PubMed数据库中的流行可能是由于大量出版物的临床研究。在这些研究中,通常使用逻辑回归分析分类结果(即治疗成功),因为它非常适合于解释特征对结果的影响。Cox回归在PubMed数据库中也非常流行,因为它常用于分析Kaplan-Meier生存数据。

在计算机科学中使用的模型

从dblp中检索到,计算机科学书目中最受欢迎的五个模型是:

  • 神经网络: 63,695(68.3%)篇论文;
  • 深度学习: 10,157(10.9%)篇论文;
  • 支持向量机: 7,750(8.1%)篇论文;
  • 决策树: 4,074(4.4%)篇论文;
  • 最近邻居: 3,839(2.1%)篇论文;

计算机科学出版物中提到的机器学习模型的分布是截然不同的:大多数出版物似乎都涉及最近的非线性方法(例如神经网络、深度学习和支持向量机),如果将深度学习算作神经网络的一种,则超过四分之三的检索计算机科学出版物都涉及神经网络。

行业之间的差别

 

图4总结了文献中提到的参数和非参数模型的百分比。柱形图表明,在机器学习研究中调查的模型(计算机科学出版物)和应用的模型类型(生物医学和整体出版物)之间存在很大差异。虽然超过90%的计算机科学出版物涉及非参数模型,但大约90%的生物医学出版物涉及参数模型,这表明机器学习研究主要集中在最先进的方法,如深度神经网络,而机器学习的用户往往依赖于更多可解释的参数模型,如逻辑回归等。

总结

对科学文献中有监督学习模型的流行度分析表明了人工神经网络的受欢迎程度。但是,也看到不同的领域使用不同类型的机器学习模型。特别是生物医学科学的研究人员仍然严重依赖参数模型,但这种情况逐渐在发生改变,随着可解释模型的研究更加深入,更复杂的模型一定会在生物医学领域得到广泛应用。

 

原文链接
本文为云栖社区原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/520117.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2018年度机器学习50大热门网文

新的一年新气象,总结过去一年,展望新的一年。站在巨人的肩膀上前行,肯定会事半功倍。因此,本文从2018年1月至12月期间挑选出近22,000篇机器学习文章,并进行比较,以挑选出能够提升2019年数据科学技能的前50名…

广东制造按下加速键  千家中小企业上阿里云工业互联网

阿里云广东峰会上,阿里巴巴副总裁、阿里云智能IoT事业部总经理库伟表示,过去2年阿里云与合作伙伴一起助力数千家广东中小企业的数字化转型综合成本降低了70%。 都说中国制造看广东,云计算、物联网、人工智能已成为广东制造发展新引擎。“我们…

阿里云图数据库GraphDB上线,助力图数据处理

GraphDB简介 GraphDB图数据库适用于存储,管理,查询复杂并且高度连接的数据,图库的结构特别适合发现大数据集下数据之间的共性和特性,特别善于释放蕴含在数据关系之间的巨大价值。GraphDB引擎本身并不额外收费,仅收取云…

pom 导入mysql连接,maven项目中的jdbc连接步骤

在maven项目pom.xml中到入驱动包(以下是驱动包代码)mysqlmysql-connector-java8.0.15导入成功会看到Maven Dependencies下有个mysql-connector-Java包然后按下面步骤:package com.base.day16;import java.sql.Connection;import java.sql.DriverManager;import java…

一场稳定、高清、流畅的大型活动直播是怎么炼成的?

双11猫晚是家喻户晓的综艺晚会,在今年的双11,阿里集团为2500万用户提供了一场在线直播视觉盛宴。网友评价这是一场既稳定流畅又高清的直播,当然在这背后离不开阿里云的技术支持。 本次天猫晚会中,视频云首次采用4k和50帧的技术&a…

阿里云联合顶级卫星影像公司发布数字地球引擎

12月3日,在阿里云广东峰会上,阿里云联合超图软件、长光卫星、Maxar技术、四维测绘等顶级卫星影像产业链公司发布数字地球引擎,提供开放式的影像数据集、遥感AI能力、丰富的API接口等,在国土资源监管、水利河道治理、自然环境保护和…

PLSQL 快捷键

文章目录1.创建文本文件2. 添加自定义快捷键3. 配置1.创建文本文件 在D:\software\PLSQL Developer\PlugIns目录下面创建shortcuts.txt 2. 添加自定义快捷键 iINSERT uUPDATE sSELECT fFROM wWHERE oORDER BY dDELETE dfDELETE FROM sfSELECT * FROM scSELECT COUNT(*) FROM…

python numpy sum函数,numpy.sum()的使用详解

numpy的sum函数可接受的参数是:sum(a, axisNone, dtypeNone, outNone, keepdimsnp._NoValue)在参数列表中:a是要进行加法运算的向量/数组/矩阵axis的值可以为None,也可以为整数和元组其形参的注释如下:a : array_like elements to sum.a:用于进行加法运算…

云栖专辑 | 阿里开发者们的第9个感悟:脱离产品价值,是难以出创造性的代码的

2015年12月20日,云栖社区上线。2018年12月20日,云栖社区3岁。 阿里巴巴常说“晴天修屋顶”。 在我们看来,寒冬中,最值得投资的是学习,是增厚的知识储备。 所以社区特别制作了这个专辑——分享给开发者们20个弥足珍贵的…

提升沟通效率52%  阿里政务钉钉助力政府数字化转型

阿里云广东峰会期间,阿里巴巴政务钉钉事业部总经理叶军表示,在浙江省试点应用政务钉钉期间,政府人员沟通效率提高了52%。政务钉钉是在线政务协同平台,它整合了政务专属通讯录、千人千面的工作台、智能会议、移动办公等诸多功能&am…

十余位权威专家深度解读,达摩院2019十大科技趋势点燃科技热情

2019年的第一个工作日,阿里巴巴达摩院重磅发布了2019十大科技趋势,引发社会各界对未来科技的讨论和向往。这一发布同样引来科学界的普遍关注。来自包括中科院、清华大学、佛罗里达大学、杜克大学等权威学术机构的十余位专家就此发表评论,深度…

云栖专辑 | 阿里开发者们的第10个感悟:产品经理最优秀的能力,是框架思维,脑海中有蓝图

2015年12月20日,云栖社区上线。2018年12月20日,云栖社区3岁。 阿里巴巴常说“晴天修屋顶”。 在我们看来,寒冬中,最值得投资的是学习,是增厚的知识储备。 所以社区特别制作了这个专辑——分享给开发者们20个弥足珍贵的…

Dubbo作者亲述:那些辉煌、沉寂与重生的故事

摘要: Dubbo 这个名字,最后会变成一个 Apache 的商标,会成为一个在 GitHub 上有 2 万多人关注、一百多人参与贡献的超级项目。 梁飞在 2011 年开源 Dubbo 这个项目的时候,完全没有想过,Dubbo 这个名字,最后…

阿里云提出“云+Fintech”新金融战略 已助上万家金融机构上云

“云是不可逆转的大战略。”12月3日,阿里云智能新金融事业部总经理刘伟光在2019阿里云广东峰会上表示,“云Fintech”将成为数字金融时代的新基础设施,阿里云已整合蚂蚁金服金融科技开放业务能力,利用全栈式金融级技术方案助力金融…

基于Kubernetes 的机器学习工作流

介绍 Pipeline是Kubeflow社区最近开源的一个端到端工作流项目,帮助我们来管理,部署端到端的机器学习工作流。Kubeflow 是一个谷歌的开源项目,它将机器学习的代码像构建应用一样打包,使其他人也能够重复使用。 kubeflow/pipeline…

puppet php,puppet入门实践

版本选择本来是要选择一个最新版本(当时最新版本是4.3),怎奈官方的yum仓库(https://yum.puppetlabs.com/)中没有最新版本;至少看起来没有4.3;有的是:facter-1.6........facter-2.4........hira-1......mcollective-2......mcollec…

Apache Flink,流计算?不仅仅是流计算!

阿里妹导读:2018年12月下旬,由阿里巴巴集团主办的Flink Forward China在北京国家会议中心举行。Flink Forward是由Apache软件基金会授权的全球范围内的Flink技术大会,2015年开始在德国柏林举办,今年第一次进入中国。 今天&#x…