对于程序员来说,机器学习领域无疑充满着巨大的诱惑和挑战,很多人对里面复杂的概念和算法头疼不已,那么,有没有一套对新手既友好又明了,对老手能加深印象,不断复习的学习办法呢?有,今天优达菌要送给大家一份“机器学习小抄”!
如果你不太清楚机器学习小抄是什么,请继续耐心阅读;如果你比较着急获取完整版内容,请直接翻到文末,查看获取小抄的方法。
这份“小抄”来自网红数据科学家Chris Albon,他有近十年的统计学习、人工智能和软件工程方面的经验。著名的IT播客 Partially Derivative,就是他和其他两位大佬一起主持的。
由于在机器学习上浸淫多年,累积了丰富的知识,Chris便将自己所识所学浓缩在一张张短小精悍的卡片中,并且在Twitter上不定期地更新卡片内容。
Chris本人
众所周知,机器学习是由计算机、科学统计学和数学共同支撑起的一个广阔领域,有数百个概念要学习,这些卡片旨在帮助你速记机器学习中的关键概念。
每一张卡片都包含一个机器学习概念,用图片搭配文字解释的方式生动地向你阐述概念背后的基础思路,范围从数学基础横跨到大热的深度学习。
这些公式由Chris先手工绘制,再数据化转换成你面前的一张张图片,比起一页页地翻教科书更轻松偷♂税。
你甚至能把图片复制进手机,哪里不会点哪里,路上通勤的时候也能随手翻看,这总比背英语单词有趣多了吧!
到底愉不愉悦?优达君花了点时间金钱集齐了这套卡片,并辛苦地做了汉化,同时对一些作者没讲到或者不全面的知识做了补充。今天先发一些给大家感受下,如果觉得好玩且有帮助,可以直接翻到文末,查看小卡片领取方法。
准确率:分类问题中的常见度量方法。当我们有极为不平衡的分类时则不能奏效。这种情况下使用F1分数更为合适。
自适应提升算法:
1、为每一个观测值Xi赋一个初始的权重值,Wi = 1/n,n是观测值总数。
2、训练一个“弱”模型。(通常是决策树)
3、对于每一个观测值:
a) 如果预测值错误,Wi增加
b) 如果预测值正确,Wi减少
4、训练一个新的弱模型,其中,有更高权重的观测值获得更高优先级。
5、重复第3、4步,直到观测值都能被完美预测出来或者预设数量的树都被训练完了。
调整R平方:
直观上:一旦所有正确的特征都已经加上,额外的特征应该被惩罚。
(优达菌注:调整R平方有最大值,在此最大值下有最好的特征组合,常用于特征选择。)
凝聚型聚类:所有的观测值初始自成一个聚类。根据一些标准,聚类间相互合并。不断重复这一过程,直到到达某一终点。
AIC(Akaike information criterion):在特征选择时用于比较哪个模型更好。AIC越小越好。
几乎处处:根据度量理论,一个几乎处处成立的性质对所有事物都是正确的,但是一些先锋案例就会自然地忽略掉。
岭回归中的Alpha,不懂看图。
安斯库姆四重奏:安斯库姆四重奏用4组完全不同的数据,得出相同的汇总统计和回归线。这是对汇总统计的警示。
神经网络架构:
神经网络架构指单元,他们的激活函数,有几层等等。
大多数的神经网络架构可被理解为单元堆积层。
某一问题的最好架构应该通过使用验证集试验后找到。
AUC:ROC曲线代表二分类器中真正类比例和假正类比例的概率阈值。AUC能评判模型的整体质量。AUC越高越好。
觉得机器学习很有趣,想进一步深入学习,加入 AI 热潮,成为拥有 Google 技术认证的高薪、抢手又能改变世界的机器学习工程师吗?
Udacity 与 Google、Kaggle、滴滴打车等行业领先企业,共同设计打造“机器学习工程师”纳米学位项目,带你从0开始进入人工智能领域,达到行业认可的硅谷水平。
扫描下方二维码,加入微信群,获取全套机器学习小卡片,还有更多课程资讯等你了解!
加入课程,你可以获得:
硅谷独家课程内容,Google、Kaggle、滴滴出行开发课程并颁发认证
全中文的学习辅导
每周一次直播辅导,答疑没烦恼
加入同步学习小组,在导师监督下加速成长
本期课程将于 12月14日(明天)10:00 正式开放报名,仅限 300 席位。点击阅读原文,立即预定抢席位!