吴恩达斯坦福大学机器学习 CS229 课程学习笔记(一)

说到机器学习总绕不过几个鼎鼎大名的人物,他们都创造了不少的机器学习资料,斯坦福吴恩达Andrew Ng的公开课CS229;Google李飞飞的CS231、周志华的、李航的《统计学习方法》、林轩田的《机器学习基石》、Peter Harringtond 的《机器学习实战》、周志华的《机器学习》(西瓜书,书中都是拿西瓜举例子)。

CS229的官方网站是http://cs229.stanford.edu/,网易公开课视频地址是http://open.163.com/special/opencourse/machinelearning.html,可以同时下载打包的课件,b站也可以看https://www.bilibili.com/video/av9909092/index_25.html。知乎大神CycleUser翻译了笔记,托管在github上https://github.com/Kivy-CN/Stanford-CS-229-CN/,还上传了百度云:https://pan.baidu.com/s/1kV4vDEv#list/path=%2F。百度文库也有一份个人笔记:https://wenku.baidu.com/view/99b86f70650e52ea54189862.html。知乎上面有人对机器学习的资源进行了整理<em>机器学习</em>该怎么入门? - 张松阳的回答 - 知乎https://www.zhihu.com/question/20691338/answer/53910077,但我觉得还是不要图多,好好钻研才重要。

本课程主要介绍机器学习和统计模式识别。主题包括:监督学习(生成/鉴别学习、参数/非参数学习、神经网络、支持向量机support vector machines);无监督学习(聚类clustering、降维、核方法);学习理论(偏差/方差权衡;风险投资理论VC theory;大的利润);强化学习和自适应控制。该课程还将讨论机器学习的最新应用,如机器人控制、数据挖掘data mining、自主导航、生物信息学、语音识别、文本和web数据处理。

第一课中,前半部分Ng主要照着handout简单说了一些课程的设置,需要掌握基础的统计知识,说明会有project,项目要求掌握matlab或者Octave。现在看来Python应该会是更好的选择,不仅可以调用matlab模块,还可以调用现成的机器学习算法包scikit-learn:http://scikit-learn.org/stable/。然后,Ng讲了什么是机器学习。1959年Arthur samuel定义机器学习是在不直接针对特定问题编程的情况下让机器具有特定学习能力的的领域。他写了一个下棋的程序,在程序自己和自己下了很多遍之后,程序可以知道说明会导致输赢。这也反驳了程序只会做明确指定的功能的言论。在1998年Tom Mitchell做了一个更加现代的定义:

对一个计算机来说,在拥有经验E和评价标准P,可以自己提升对任务T的性能,就可以称作机器学习。在表述中不仅做出了定义,还很押韵。

接下来对课程做一个整体的把握。分成四个部分

第一部分是有监督的学习supervised Learning。Ng举了一个房屋价格的例子。有一些是统计出来的,房屋面积和价格一一对应。当我们想要知道一个新的房屋价格,却只知道它的面积时,就可以根据之前采集的数据画出的曲线来预测。之前的几组数据看作是标准答案,所以叫监督,我们希望机器学习输入和标准答案之间的对应关系。这种问题就是回归问题,Regression Problem,Regression这个词也反映了我们预测的数据是连续的。另一个监督学习类的问题是分类问题。在分类问题中是离散的。Ng举了肿瘤的例子。为了简单起见,只考虑肿瘤的大小,和对应是否是良性肿瘤。而实际中输入的特征往往是多维的,比如肿瘤的大小,患者的年龄,肿块厚度等。通过学习现有的数据,判断新来的病人的肿瘤是否是良性。多维输入的情况下,我们不能将点画在平面中,可以用支持向量机SVM映射到计算机内存中

第二部分,Learning Theory。Ng的一般数学家朋友致力于揭示宇宙中的真美,但是Ng希望用机器学习解决实际的问题。什么样的算法可以近似不同的函数,需要多少训练数据。它只是一种工具,和木匠的锤子一样,真正的木匠能用工具解决其他人无法解决的问题。

第三部分是Unsupervised Learning,非监督学习。这中无监督的学习中我们事先不知道输入数据的标准答案,只能自己找到一些有趣的数据结构。有一个学生用聚类技术对图像的像素进行分类。进阶地,利用聚类的结果,实现了通过单幅图像建立了3D模型。还有社交网络分析,市场分析,宇宙星系分析。还有一个例子是鸡尾酒会,很多人在谈话,希望把感兴趣的人的声音单独分离出来。用matlab的一行代码就可以解决,实现了ICA算法。

第四部分是Reinforcement Learning,预测肿瘤属性的例子中,错判的代价是很大的。Ng展示了他做的无人直升机的例子。直升机可以实现四脚朝天飞的特技。这很难由人工之间直接写程序来实现。背后的一个基本概念是reward function汇报函数,就像像训练狗一样,做对事情的时候,就给以奖励。这时候我们只需要定义什么是好的积极的行为,机器会学习如何获得最大的回报。

还有很多人对机器学习不以为然,其实机器学习确实只是一种工具,还是需要建立在专业知识之上。好的木匠在动手之前在脑海中已经有一件伟大的作品了。




本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/493754.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

千万级负载均衡架构设计

负载均衡 &#xff08;Load Balancing&#xff09; 负载均衡建立在现有网络结构之上&#xff0c;它提供了一种廉价有效透明的方法扩展网络设备和服务器的带宽、增加吞吐量、加强网络数据处理能力、提高网络的灵活性和可用性。 大型网站负载均衡的利器 全局负载均衡系统&#xf…

科学为什么重要?马化腾公开信引热议,透露企业未来发展方向

来源&#xff1a;世界科技创新论坛摘要&#xff1a;美国强大的源泉&#xff0c;不是因为它有原子弹&#xff0c;航空母舰&#xff0c;隐性飞机&#xff0c;或者芯片&#xff0c;而在于它牢牢地掌握着基础科学的最前沿。科学一点都马虎不得&#xff0c;没有捷径可走&#xff0c;…

Bloom-Filter算法 简介

Bloom-Filter算法 其实可以看作 bit-map 的一种扩展。 它把已存在的元素通过多个hash 函数映射到一个 bit 序列&#xff0c;对于每一个元素根据hash函数的结果把相应的 位置置一&#xff08;这个bit序列通常很长&#xff0c;但是比起记住所有元素它占用的空间是小的&#xff09…

吴恩达斯坦福大学机器学习 CS229 课程学习笔记(二)

终于要开始正式的学习了。看了第一节课最大的印象是Ng老师的优雅&#xff0c;儒雅&#xff0c;偏英式的发音&#xff08;突然意识到他从小在伦敦长大&#xff09;。配着字幕看的视频&#xff0c;但还是希望能锻炼一下自己的听力&#xff0c;也只有在自己看过一遍印象才深刻&…

当自动驾驶汽车撞过来的时候,你希望它如何判断?

来源&#xff1a;网易智能 摘要&#xff1a;据报道&#xff0c;当无人驾驶汽车在繁忙的街道上发生碰撞的时候&#xff0c;它该优先避免让谁受伤呢&#xff1f;它该杀死谁&#xff0c;而不杀死谁呢&#xff1f;麻省理工学院的一项研究表明&#xff0c;你的回答将取决于你来自哪里…

细数黑客攻击的七大战术

不计其数的黑客们游荡在因特网中来欺骗那些容易上当的用户。它们多年使用着重复的攻击手段&#xff0c;毫无创新地利用着我们懒惰、误判和一些犯二的行为。 不过每年&#xff0c;恶意软件研究人员总会遇到一些引人侧目的攻击手段。这些攻击手段在不断拓展恶意攻击的范围。新的攻…

人工智能黑暗面

来源&#xff1a;大数据文摘编译&#xff1a;DonFJ、蒋宝尚机器学习是现在大家都打了鸡血想用或者在用的技术。但是&#xff0c;你以为只有好人能用它吗&#xff1f;Too young too simple&#xff01;接下来&#xff0c;我将揭秘AI技术黑暗的一面——犯罪份子和人工智能的孽缘。…

认识蚁群算法

好像是看罗胖的罗辑思维&#xff0c;看到过一种说法&#xff0c;越是准入门槛高的&#xff0c;难以取代的行业&#xff0c;所需的工具是越简单的。摄影师需要昂贵的镜头&#xff0c;而画家却只需要简单的纸笔&#xff0c;尽管照片比画逼真得多&#xff0c;但是却无法取代绘画的…

postgresql数据类型转换

PostgreSQL数据类型转换需要使用语法 alter table tbname alter column fieldname type date_type 遇到需要转换为特殊类型如DATE、BOOL需要使用using子句 --转换为date类型 alter table tbname alter column fieldname type date using cast(fieldname as date)--转换为bool类…

薛定谔的猫跳进了生物学界,化学家表示:没有我可能办不到

来源&#xff1a;原理摘要&#xff1a;在生物科学界流传着“物理学家累了就来生物界玩一玩”的调侃。确实&#xff0c;现今学科之间密不可分&#xff0c;生物学的发展对特定物理技术的需求也越大。但是这样化学家却不满意了&#xff1f;1943年&#xff0c;物理学家薛定谔在都柏…

图像配准之特征点匹配的思考

最近赶时髦&#xff0c;看了一些智能优化算法如蚁群算法&#xff0c;还有机器学习的一些东西&#xff0c;就想着怎么把这些先进的东西用在图像配准中。头脑风暴了一下&#xff0c;觉得在已经检测到两幅图像的特征点的基础上&#xff0c;就如何对它们进行匹配似乎有优化的空间。…

软件工程实践小队Scrum Meeting

Scrum Meeting转载于:https://www.cnblogs.com/hjk-buaa/p/3382259.html

指针%p输出的一些认识

还是看源码发现的问题 static int import_lowe_features( char*filename, struct feature** features ) 这个函数的作用是将txt文件中的Lowe的特征点导入到feature结构体中。在这个函数中第二个参数是指向结构体的指针的指针。 f calloc( n, sizeof(struct feature) );//在内存…

全球智慧医疗产业发展现状

来源&#xff1a;无锡情报所摘要&#xff1a;全球智慧医疗市场主要集中在美国、欧洲、日本和中国,而产品生产主要集中在美国、欧洲和日本。 随着大数据、云计算、物联网和人工智能技术快速发展和普及&#xff0c;运用互联网应用平台提升医疗资源的使用效率、提高救治和服务水平…

textbox回车事件中拿不到text的处理办法(wpf)

wpf做一个搜索框&#xff0c;想要在回车时搜索框内的文字。 <TextBox x:Name"SearchBox" Grid.Column"1" Margin"350,35,52,21" Width"122" Height"34" RenderTransformOrigin"0.5,0.5" Text"{Binding K…

2018AI和机器学习界的12个重大收购案

来源&#xff1a;网络大数据据IDC声称&#xff0c;到2018年&#xff0c;全球人工智能(AI)和认知系统支出将达到190亿美元&#xff0c;这比2017年的支出总额增加约54%。并购在不断发生。仅2017年就见证了几起大宗收购&#xff0c;比如雅虎被Verizon收购、苹果收购Shazam等。知名…

PCA对特征点描述子降维

降维在机器学习领域其实是很重要的一部分&#xff0c;因为在高维情形下回出现样本稀疏&#xff0c;计算距离、内积困难&#xff0c;是所有机器学习面临的共同问题&#xff0c;被称为维数灾难&#xff08;Curse of dimensionality&#xff09;&#xff0c;而降维就是解决的一个办…

java快速获取大图片的分辨率(大图片格式JPG,tiff ,eg)

问题描述&#xff1a;怎样快速获取一个20MB图片的分辨率&#xff1f; 程序代码&#xff1a; 1 package test;2 3 import java.awt.Dimension;4 import java.awt.image.BufferedImage;5 import java.io.File;6 import java.io.IOException;7 import java.util.Iterator;8 import…

C语言基础知识整理

一、 关于sizeof和strlen。Sizeof&#xff08;&#xff09;用于计算某类型或者某变量在内存中所占空间。比如整数分为short型&#xff0c;int型&#xff0c;long整型&#xff0c;分别占2,2/4,4个字节&#xff0c;int型具体占用几个字节和编译系统有关。我们输入字符串时通常用c…

【2017-2019】Gartner战略技术趋势一览

来源&#xff1a;学术plus 、装备参考近期&#xff0c;Gartner公布了2019年十大战略技术趋势的预测&#xff0c;值此之际&#xff0c;本文总结回顾并简要分析了2017-2019三年的战略趋势变化。Gartner副总裁兼研究员David Cearley指出&#xff1a;在智能、数字、网格三大领域下的…