周志华教授专著《集成学习:基础与算法》上市,豆瓣满分森林书破解AI实践难题...

近年来,机器学习技术的快速发展推动了语音、自然语言处理、机器视觉等多个领域获得巨大进步,也带动了人工智能相关产业的蓬勃发展。

回顾机器学习最近30 年的发展历程,各种学习方法推陈出新、不断演进。但是,在此历程中,通过构建并结合多个学习器来完成学习任务的集成学习方法,始终是提升学习效果的重要手段,成为机器学习领域的“常青树”,受到学术界和产业界的广泛关注。

在这个深度学习应用取得巨大成功的当下,我们无法忽视集成学习在其中所发挥的巨大作用。在深度学习方法之上引入集成学习仍然是许多深度学习专家用来提升效果的重要手段。

集成学习技术已在人工智能实践中被广泛使用,例如,对搜索、推荐、广告的核心任务——点击率预估而言,GBDT (Gradient Boosting Decision Trees)因其稳定、优异的效果一直是事实上的工业标准;在语音识别领域,基于集成深度学习的声学模型极大提升了识别效果;在异常检测上,iForest 因其极高的检测效率在实践中备受关注。

▶ 那么,什么是集成学习?

简而言之,集成学习从数据中显式或隐式地学习多个模型,并将它们有效结合以获得更可靠和更准确的预测。因此,集成学习的关键是(a)如何从数据中学习多样且准确的模型,以及(b)如何有效地结合它们以获得更好的结果。

集成学习与其他机器学习方法的核心区别在于:

它专注于偏差-方差权衡(Bias-Variance Tradeoff)问题——这是所有机器学习方法(无论是深度学习,还是经典机器学习方法)与生俱来的根本问题。

正是这个独特的研究视角,使集成学习对包括深度学习在内的所有机器学习方法都很有价值。

/   博文菌有话说:小白同学也可以理解为,通过“人多力量大”、“三个臭皮匠赛过诸葛亮”的形式达到出其不意的效果   /

虽然在人类社会中,使用多个模型解决问题的基本想法有着悠久的历史,但关于集成学习方面的专著却少得可怜。

为了反映集成学习领域的快速发展,周志华教授进行了一次更新的深入回顾,由此森林书Ensemble Methods诞生了! 

作为一本系统性阐述集成学习的著作,本书在国外一出版便引发了领域内的巨大轰动。在亚马逊AMAZON上,本书拥有4星+的好成绩,“Great Book”一词更是被读者们刷爆评论区!

 被誉为目前全球影响力最高书评网站之一的Goodreads上,同样有着4星+的好成绩。

阅读本书后我学到了很多新技巧。”读者对本书的喜爱也溢于言表。

由于Ensemble Methods在国内非常难买到,本书在豆瓣读书上的参评人数不多,但一小部分有机会读过原著的同学硬生生把分数给到了逆天的10分满星

读者好评从2016年横跨至2019年,无一不被这部森林书的魅力折服。

▶ 通杀豆瓣、亚马逊、Goodreads的森林书,都讲了什么?

全书化繁为简,用通俗易懂的表述方式重点讲解集成学习的主流代表性技术 Boosting ,并详释了重要算法的实现。集成学习方法在实践中获得了巨大成功,本书也向读者阐述了集成学习在如计算机视觉、医疗、信息安全和数据挖掘竞赛等领域中的 应用实践 

本书面向研究人员、学生和实践者介绍集成学习方法。全书共8章,分为三部分。

第一部分主要介绍集成学习的背景知识。

第二部分主要介绍集成学习方法的核心知识,包括Boosting、Bagging、Random Forests 等经典算法,平均、投票和Stacking 等模型和方法、相关理论分析工作,以及多样性度量和增强方面的进展。

第三部分介绍集成学习方法的进阶议题,包括集成修剪、聚类集成和集成学习方法在半监督学习、主动学习、代价敏感学习、类别不平衡学习及提升可理解性方面的进展。

此外,本书还在每章的“拓展阅读”部分提供了相关的进阶内容。

▶ 森林书——中文版来了!

图书资源的匮乏,给国内从事集成学习研究和实践的人们带来了很大的障碍!值得庆幸的是,李楠博士现将这部深入剖析集成学习思想的著作进行了高质量地翻译!

李楠博士毕业于南京大学计算机系机器学习与数据挖掘研究所(LAMDA),师从周志华教授从事机器学习研究。曾发表论文20余篇,并获国际数据挖掘竞赛冠军及最佳论文奖。先后供职于阿里巴巴iDST/达摩院和微软亚洲互联网工程院,长期从事机器学习在互联网搜索、推荐和广告中的研究和应用工作。

李楠博士拥有非常丰富的理论基础与实践经验,确保了中文版忠于原著且行文流畅。

人工智能探索与实践丛书

《集成学习:基础与算法》

周志华 著 ,李楠 译

国内独本剖析集成学习的著作

▼新书预售中,扫码获取详情▼

本书中文版的上市迅速得到了很多大佬的关注!

阿里巴巴集团副总裁、达摩院副院长金榕教授更是为本书热情作序力荐!在推荐序中,金榕教授这样写道:

在本书中,作者充分阐述了偏差-方差权衡问题的背景知识,足以使对统计学不太了解的读者也能很好地理解该问题。

此外,作者在阐述集成学习的广度(集成学习的全貌) 和深度(单个算法的实现)上做了很好的平衡,结构合理,使得本书能真正惠及广大读者。

这也是博文菌想要向大家说的,

本书既具权威性又兼容并包,一定能让广大读者朋友们真正从中获益!

最后再次真诚推荐给所有AI领域从业者,一定不要错过这本凝聚大师智慧、国内独本剖析集成学习的技术佳作!

▼立即加入本书交流群▼

与更多读者一同学习

▶ 送书福利时间

卖萌屋联合电子工业出版社博文视点为各位小伙伴们带来 2本 纸质书《集成学习:基础与算法》!小夕会从评论区中挑选2名 常读用户 送书一本~(您的每一次评论和互动小夕都记在心里????)没有领到书的小伙伴也不要难过,只要多多关注卖萌屋下一次就有机会获得赠书哦~

点击阅读原文,了解本书详情~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/479969.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Redis常用数据类型的数据结构

文章目录1. Redis 数据库介绍2. 列表(list)3. 字典(hash)4. 集合(set)5. 有序集合(sortedset)6. 数据结构持久化7. 总结1. Redis 数据库介绍 Redis 是一种键值( Key-Val…

论文浅尝 | 使用循环神经网络的联合事件抽取

余博涛,南京大学计算机科学与技术系,硕士研究生论文连接:http://www.aclweb.org/anthology/N16-1034发表会议:NAACL-HLT 2016摘要事件抽取(event extraction)是信息抽取中一个特别具有挑战性的问题。针对该…

阿里P8架构师谈:Web前端、应用服务器、数据库SQL等性能优化总结

web前端性能优化 Web前端指网站业务逻辑之前的部分,包括: 1.浏览器加载 2.网站视图模型 3.图片服务 4.CDN服务等 主要优化手段有优化浏览器访问,使用反向代理,CDN等。 1.浏览器访问优化 (1)减少http…

动手做个DialoGPT:生成式多轮对话模型

文 | 苏剑林编 | 兔子酱前段时间刷Arixv的时候,发现清华大学开源了一个大规模的中文闲聊语料库LCCC,从开源的文件上来看,这可能是目前开源的数量最大、质量最好的闲聊语料库了,而且还包含了部分多轮对话聊天,总的来说可…

搜索引擎背后的数据结构和算法

文章目录1. 整体系统介绍2. 搜集2.1 待爬取网页链接文件:links.bin2.2 网页判重文件:bloom_filter.bin2.3 原始网页存储文件:doc_raw.bin2.4 网页链接及其编号的对应文件:doc_id.bin3. 分析3.1 抽取网页文本信息3.2 分词并创建临时…

论文浅尝 | DKN: 面向新闻推荐的深度知识感知网络

笔记整理:仲亮靓,东南大学硕士研究生,研究方向是基于知识图谱的推荐系统动机新闻文本的语言非常凝练,其中包含了很多实体和常识知识。但目前的新闻个性化推荐方法都没有利用这些外部知识,也没有使用新闻之间潜在的知识…

聊聊工业界做机器学习的里程碑

文 | 吴海波编 | YY阅读说明,本文的机器学习领域限制于互联网搜索、推荐、广告场景,仅限于个人观点。2017年,我和团队的几个核心去了趟北京,找了各大互联网公司一线实战的同学,交流各自在机器学习上的经验。这次交流让…

直通BAT JVM必考题:Minor GC、Major GC、Full GC的区别

Java面试过程,JVM属于必考题系列: 直通BAT必考题系列:深入详解JVM内存模型与JVM参数详细配置 直通BAT必考题系列:JVM的4种垃圾回收算法、垃圾回收机制与总结 直通BAT必考题系列:7种JVM垃圾收集器特点,优…

matplotlib绘制多张图、多子图、多例图

绘制多图 关键: fig plt.figure(1) 表示新建第几个图 import matplotlib.pyplot as pltfig plt.figure(1) plt_rec_loss [1,2,3,4,5,6] plt_rec_recall [4,3,6,5,8,9] plt.xlabel("epoch") plt.ylabel("loss") plt.plot(range(len(plt_re…

jieba分词并做分析

Github:结巴分词地址 https://github.com/fxsjy/jieba 几种分词方法的简单使用:一 . jieba安装、示例 pip install jieba,jieba分词的语料是基于人民日报。分词示例1 import jieba 2 3 str1 江州市长江大桥 4 word_object jieba.cut(s…

研讨会 | CCF TF 第 17 期:认知计算产业化落地

CCF TF 技术前线只为技术专家CCFTF第17期主题 认知计算产业化落地2019年05月11日上海斯波特酒店五楼(上海市南丹路15号,徐汇区政府对面)人类迈入人工智能时代,技术的发展使得机器可以从大数据中提取信息,串联成知识&a…

短网址系统

文章目录1. 短网址服务整体介绍2. 如何通过哈希算法生成短网址?2.1 如何让短网址更短2.2 如何解决哈希冲突?2.3 如何优化哈希算法生成短网址的性能?3. 如何通过ID生成器生成短网址?3.1 相同的原始网址可能会对应不同的短网址3.2 如…

一个神经元的价值和一个神经病的坚持

作者 | 周博磊来源 | 机器之心一个神经元能够催生多少故事?香港中文大学信息工程系助理教授周博磊近日撰文介绍了他自 2015 年开始至今对神经元的研究经历。最近,他与 David Bau、朱俊彦等人合作的神经元研究论文发表在了 PNAS 杂志上。以下是周博磊的原…

直通BAT必考题系列:深入剖析JVM之G1收集器、及回收流程、与推荐用例

金三银四马上到了,即将进入面试的高峰期。在BAT面试中,JVM基本都是必考的系列。你至少需要掌握JVM内存模型与JVM参数详细配置,JVM的4种垃圾回收算法、垃圾回收机制与总结,以及今天重点谈到的JVM垃圾回收算法的实现:JVM…

多任务学习方法

最近一直在做多任务,但是效果好象没什么提升,因为都是凭自己的想法和感觉在做。于是上网查找了一些这方面的资料,寻求一些理论上的支撑和前人经验上的帮助。 多任务学习: 故名思意,就是多个任务一起学习。为什么要进行…

曹羽 | 从知识工程到知识图谱全面回顾

本文转载自公众号:集智俱乐部。文本挖掘和图形数据库 | ©ontotext导语知识工程是符号主义人工智能的典型代表,近年来越来越火的知识图谱,就是新一代的知识工程技术。知识工程将如何影响未来人工智能领域的发展,甚至让计算机拥…

4大JVM性能分析工具详解,及内存泄漏分析方案

谈到性能优化分析一般会涉及到: Java代码层面的,典型的循环嵌套等 还会涉及到Java JVM:内存泄漏溢出等 MySQL数据库优化:分库分表、慢查询、长事务的优化等 阿里P8架构师谈:MySQL慢查询优化、索引优化、以及表等优化…

从 0 搭建一个工业级推荐系统

推荐系统从来没像现在这样,影响着我们的生活。当你上网购物时,天猫、京东会为你推荐商品;想了解资讯,头条、知乎会为你准备感兴趣的新闻和知识;想消遣放松,抖音、快手会为你奉上让你欲罢不能的短视频。而驱…

论文浅尝 | 虚拟知识图谱:软件系统和应用案例综述

本文转载自公众号:DI数据智能。Virtual Knowledge Graphs: An Overview of Systems and Use Cases作者:Guohui Xiao, Linfang Ding, Benjamin Cogrel & Diego Calvanese供稿:Guohui Xiao编者按:Data Intelligence 发表意大利博…

LeetCode 169. 求众数(摩尔投票)

文章目录1. 题目信息2. 解题思路3. 代码3.1 排序3.2 map计数3.3 摩尔投票1. 题目信息 给定一个大小为 n 的数组,找到其中的众数。众数是指在数组中出现次数大于 ⌊ n/2 ⌋ 的元素。 你可以假设数组是非空的,并且给定的数组总是存在众数。 示例 1:输入…