科学、技术、工程、应用
- 科学:是什么、为什么
- 技术:怎么做
- 工程:怎样做的多快好省
- 应用:怎么使用
定义
机器学习:利用经验改善系统自身的性能。
研究
智能数据分析(数据分析+算法)
典型的机器学习过程
利用训练数据,按照某种学习算法训练出模型,利用模型预测新的样本数据的标签。
计算学习理论
- 为什么不追求误差为0?
- 为什么要使用概率P而不是一个绝对的结果?
机器学习一般用于解决不确定规则的问题,从数据中总结出一定的规则,具有很强的不确定性。
P问题:在多项式时间内找到问题的解。
NP问题:给定n个解,在多项式时间内判断是不是问题的解。
千禧难题:P=NP?
我们怎么样在多项式时间内给出最佳结果?或者如何判断某个解是不是最优的?
如果我们去误差为0和绝对,那么要求我们每一次都能得到确定的最佳答案。
归纳和演绎
归纳就是从个别到一般,是从多个个别的事物中获得普遍的规则,例如:黑马、白马,可以归纳为马;
演绎则是从一般到个别,是从普遍性规则推导出个别性规则,例如:基于一组公理和推理规则推导出与之相洽的定理。
假设空间和版本空间
或者西瓜数据集:
假设空间:所有有可能的西瓜属性值的西瓜样本。
版本空间:与训练集一致的假设集合。
基本术语
- 假设:学得模型对应了关于数据的某种潜在规则。
- 属性、样本、输入空间:属性张成的空间。
- 标记空间:标记的集合。
- 泛化能力:学得模型适用于新样本的能力。
归纳偏好
奥卡姆剃刀原则:若非必要,勿增实体。(选最简单的,更平滑的)
若有多个假设与观察一致,则选最简单的那个。
NFL
没有免费的午餐
泛化能力
思考
机器学习和深度学习的区别?
个人认为:
深度学习是机器学习的一个子集,都是利用现有数据总结经验的过程。机器学习一般泛指支持向量机、决策树等不需要利用神经网络的模型,而深度学习一般是CNN、RNN等含有深层神经网络的模型。
查找资料:
总结:
深度学习是机器学习的一个子集,但是一般而言,机器学习一般指支持向量机、决策树等算法模型,深度学习一般是指CNN、RNN等模型。
两个的区别主要在于:
1.数据量(深度学习往往需要大量数据,机器学习不是)
2.硬件依赖性(深度学习需要使用GPU进行大量的矩阵运算)
3.特征工程,机器学习的属性类别往往需要人工编码,而深度学习可以挖掘出数据的深层特征。例如,对于猫狗分类任务而言,机器学习需要人工总结一些属性,例如是否有胡须、是否有耳朵等,而深度学习对复杂概念进行连续层次识别,最终找到答案,无需人工寻找属性。