一、人工智能三大概念
人工智能三大概念 人工智能(AI)、机器学习(ML)和深度学习(DL)
人工智能:人工智能是研究计算代理的合成和分析的领域。人工智能是使用计算机来模拟,而不是人类的大脑。
人工智能(AI)是一个广泛的概念,它涵盖了使计算机能够执行类似人类智能任务的技术和方法。AI的目标是使计算机系统能够理解和分析复杂的信息,从而做出决策、学习、推理、理解语言、识别模式等。AI的应用领域非常广泛,包括语音识别、自然语言处理、计算机视觉、机器人技术、专家系统等。
机器学习:允许计算机无需明确地自动学习的研究领域
机器学习(ML)是人工智能的一个重要分支,它专注于研究和开发能够自动从数据中学习和改进的算法。机器学习算法通过训练数据来寻找规律或模式,并据此对新的、未见过的数据进行预测或分类。机器学习可以分为有监督学习、无监督学习、半监督学习和强化学习等多种类型,每种类型都有其特定的应用场景和优势。
深度学习:也叫深度神经网络,大脑仿生,设计一层一层的神经元模拟万事万物
深度学习(DL)是机器学习的一个子集,它基于神经网络模型,特别是深度神经网络模型。深度学习通过构建多层神经网络来模拟人脑的工作方式,从而实现对复杂数据的理解和分析。
三者的关系
人工智能是一个宏观的概念,机器学习是实现人工智能的一种关键方法,而深度学习则是机器学习的一个重要分支和前沿领域
学习方式
基于规律的学习:程序员根据经验利用手工的if-else进行预测
基于模型的学习:从数据中自动学出规律
基于模型的学习:比如房价预测
二、机器学习的应用领域和发展史
机器学习的应用领域:
图像识别,无人驾驶,智能翻译,医疗智能翻译,数据挖掘
机器学习的发展史可以追溯到上个世纪五十年代。以下是一些关键的发展阶段和里程碑:
- 早期研究:在20世纪50年代和60年代,人工智能和机器学习的概念开始形成。这一时期的研究主要集中在符号逻辑和基于规则的专家系统上。然而,由于当时计算能力的限制,这些系统往往难以处理复杂的问题。
- 神经网络的出现:20世纪80年代,神经网络的研究开始兴起。神经网络是一种模拟人脑神经元连接和交互的模型,它具有较强的自学习和自适应能力。尽管当时神经网络的性能有限,但它为后来的深度学习技术奠定了基础。
- 统计学习方法的兴起:在90年代和21世纪初,统计学习方法如支持向量机(SVM)、决策树、随机森林等逐渐流行起来。这些方法在解决分类、回归等问题上取得了显著成效,并在许多实际应用中得到了广泛应用。
- 深度学习的崛起:自2012年以来,深度学习技术取得了突破性进展。通过构建深度神经网络模型并利用大量数据进行训练,深度学习在图像识别、语音识别、自然语言处理等领域取得了显著成果。特别是2016年AlphaGo战胜围棋世界冠军李世石的事件,更是引发了全球对人工智能和深度学习的关注。
人工智能发展三要素
数据 算法 算力
• CPU:主要适合I\O密集型的任务
• GPU:主要适合计算密集型任务
• TPU:专门针对大型网络训练而设计的一款处理器
四、机器学习常用术语
在机器学习的领域中,理解并正确应用常用术语是掌握这一技术的基础。以下是对机器学习中的一些关键术语的理解:
-
样本(Sample):在机器学习中,样本通常指的是一组数据的实例,这些数据实例包含了描述对象的特征信息。样本是机器学习算法进行学习和预测的基础。例如,在房价预测的任务中,每一个房屋的相关信息(如面积、地理位置、楼层等)就可以视为一个样本。
-
特征(Feature):特征是指描述样本属性的变量。在机器学习中,特征是用来训练模型的关键信息。通过提取和选择有效的特征,我们可以帮助模型更好地理解和预测目标变量。在房价预测的例子中,房屋的面积、地理位置等都可以作为特征。
-
标签(Label):标签是机器学习任务中需要预测的目标变量。在监督学习中,每个样本通常都对应一个标签,这个标签是已知的,用于指导模型的学习过程。在房价预测的任务中,房价就是我们需要预测的标签。
-
训练集(Training Set):训练集是用于训练机器学习模型的数据集。在训练过程中,模型会学习如何从输入的特征中预测出目标标签。通过不断地迭代和优化,模型会逐渐提高预测的准确性。
-
测试集(Test Set):测试集用于评估训练好的模型的性能。与训练集不同,测试集中的数据在模型训练过程中是不可见的,因此可以用来检验模型对未知数据的预测能力。通过比较模型在测试集上的预测结果与实际标签的差异,我们可以评估模型的泛化能力。
五、机器学习算法分类
机器学习算法可以根据不同的学习方式和应用场景进行分类。以下是几种主要的机器学习算法分类:
- 监督学习(Supervised Learning):
- 在监督学习中,算法通过训练数据集进行学习,训练数据集中的每个样本都有已知的标签或结果。算法的任务是找出输入和输出之间的映射关系,从而对新的、未见过的数据进行预测。
- 常见的监督学习算法包括线性回归、逻辑回归、支持向量机(SVM)、决策树、随机森林和梯度提升机等。
- 无监督学习(Unsupervised Learning):
- 在无监督学习中,算法从未标记的数据中找出隐藏的结构或模式。由于没有标签或目标变量,无监督学习算法主要关注数据的内在属性和关系。
- 常见的无监督学习算法包括聚类算法(如K-均值聚类、层次聚类等)、降维算法(如主成分分析PCA、t-SNE等)和关联规则学习等。
- 半监督学习(Semi-supervised Learning):
- 半监督学习是监督学习和无监督学习的结合,它使用部分标记的数据和大量未标记的数据进行训练。这种方法尤其适用于标记数据有限但未标记数据丰富的场景。
- 半监督学习算法试图利用未标记数据中的结构信息来改进仅使用标记数据时的学习性能。
- 强化学习(Reinforcement Learning):
- 强化学习是一种通过试错来学习的策略。在这种方法中,算法(或代理)通过与环境的交互来学习如何做出最佳决策,以最大化累积奖励。
- 强化学习在游戏AI、机器人控制等领域有着广泛的应用,例如AlphaGo围棋算法就是强化学习的一个著名案例。
六、机器学习建模流程
1. 获取数据
- 搜集数据集:根据机器学习任务的需求,搜集相关的数据集。这可以通过公开数据集、网络爬虫、API接口或企业内部数据仓库等途径获得。
- 数据清洗:去除重复数据、无关数据或错误数据,确保数据的质量和准确性。
2. 数据基本处理
- 异常值处理:检测并处理数据中的异常值,如通过删除、替换或插值等方法。
- 缺失值处理:对于数据中的缺失值,可以通过删除含有缺失值的记录、填充缺失值(如均值填充、中位数填充、插值或模型预测等)来处理。
- 数据变换:可能需要对数据进行标准化、归一化或编码(如独热编码)等操作,以便于后续的特征工程和模型训练。
3. 特征工程
- 特征提取:从原始数据中提取出有意义的特征,这些特征应能够反映数据的内在规律和模式。
- 特征转换:对提取出的特征进行必要的转换,如多项式特征、对数转换等,以增强模型的表达能力。
- 特征选择:通过统计方法、模型选择或领域知识等方式,选择出对模型性能提升最有帮助的特征。
4. 机器学习(模型训练)
- 选择合适的算法:根据任务类型和数据的特性,选择合适的机器学习算法。例如,对于分类任务可以选择逻辑回归、决策树或随机森林等;对于聚类任务可以选择K-means或层次聚类等。
- 模型训练:使用处理好的数据和选定的算法进行模型训练。这通常涉及设置模型参数、优化算法和迭代次数等。
5. 模型评估
- 评估指标:根据任务类型选择合适的评估指标,如准确率、召回率、F1值、AUC-ROC等。
- 模型调优:根据评估结果对模型进行调优,包括调整模型参数、更换算法或进行进一步的特征工程等。
- 交叉验证:使用交叉验证方法来评估模型的稳定性和泛化能力,选择最优的模型进行后续的上线服务。