什么是机器学习
本系列博客为你从机器学习的介绍开始,使用大量的代码实战和验证,最终帮助你完全掌握什么是机器学习
人工智能、机器学习和深度学习的关系
人工智能(Artificial Intelligence,AI):是一门研究和开发智能机器或计算机程序的科技领域,旨在使这些系统能够模拟、延伸和扩展人类的智能行为。
机器学习(Machine Learning,ML):是人工智能领域的一个分支,它专注于研究和开发算法与统计模型,使得计算机系统能够从数据中自动“学习”规律、模式和特征,并利用这些学习结果对未知数据进行预测、分类、决策或优化任务,而无需进行显式的编程。换言之,机器学习致力于创建能够自我改进的程序,其性能随着经验(即数据输入)的增加而不断提升。
深度学习(Deep Learning,DL):是机器学习的一个子领域,它受到人脑神经网络工作原理的启发,采用多层非线性模型对复杂数据进行高效表示和分析。在深度学习中,构建了包含多个处理层(或称为隐藏层)的神经网络结构,这些层次能够逐级提取输入数据的特征,从原始信号逐步转化为越来越抽象、更具有辨别力的特征表达。
简而言之,人工智能包括了机器学习,机器学习包括了深度学习,如下图所示
巨人的肩膀
这些都是华人在机器学习领域的大牛,我也是通过他们的课程和文章来为你展开机器学习的介绍,我非常建议你可以根据我的博客笔记,来看他们的课程,他们的作品内容肯定要比我更优秀,如果你在学习机器学习过程中遇到什么问题,我也非常欢迎你来和我进行交流。
吴恩达:斯坦福大学副教授,前百度大脑的负责人与百度首席科学家。经典课程:有监督的机器学习:回归与分类 | Coursera
李航:现任字节跳动科技有限公司人工智能实验室总监,北京大学、南京大学客座教授,IEEE 会士,ACM 杰出科学家,CCF 高级会员。代表作:《 统计学习方法》
周志华:南京大学计算机科学与技术系主任、人工智能学院院长。代表作:《 机器学习》 (西瓜书)
陈天奇:机器学习领域著名的青年华人学者之一,本科毕业于上海交通大学ACM 班,博士毕业于华盛顿大学计算机系。主要贡献:设计了XGBoost 算法。
何恺明:本科就读于清华大学,博士毕业于香港中文大学多媒体实验室。2016 年,加入Facebook AI Research Research(FAIRFAIR)担任研究科学家。主要贡献:设计了ResNets
机器学习的分类
按任务类型:
- 回归问题:连续型目标变量,如:房价预测
- 分类问题:分类型目标变量,如:图像识别
- 聚类问题:无需目标变量,如:市场细分、客户聚类
- 降维问题:无需目标变量,高维空间中的数据映射到低维空间。
按学习方式:
- 有监督学习:基于一组带有标注的样本训练模型,然后用该模型对新的未知结果的样本作初预测。如:回归、分类。
- 无监督学习:训练样本的结果信息是没有被标注的。如,聚类、降维。
- 强化学习:又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一。
你现在无须立马掌握这么多的类型的机器学习,在后续博客中,我会为你一一讲解这些不同的机器学习,在理论和代码的结合中让你更加熟练地掌握机器学习。
基本术语
- 学习(训练):从数据中学得模型的过程
- 训练集:参与模型训练的样本集合
- 测试:学得模型后,使用其样本进行预测的过程
- 测试集:被预测的样本集合
- 假设:学得模型对应的关于数据的某种潜在规律
- 泛化能力:学得模型适用于新样本的能力
- 独立同分布:样本空间的全体样本都服从一个未知的分布,且相互独立
这些基本术语都很简单,我也会在后面的例子中为你详细介绍它们。