数据挖掘与机器学习 1. 绪论

于高山之巅,方见大河奔涌;于群峰之上,便觉长风浩荡

                                                                      —— 24.3.22

一、数据挖掘和机器学习的定义

1.数据挖掘的狭义定义

背景:大数据时代——知识贫乏

数据挖掘的狭义定义:

数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但是又潜在有用的信息或知识的过程

数据源必须是真实的、大量的、含噪声的

发现的是用户感兴趣的知识

发现的知识要可接受、可理解、可运用

并不要求发现放之四海而皆准地知识,仅支持特定的发现问题即可

从知识发现过程来看:可以把数据挖掘视为知识发现过程中的一个基本步骤,也就是数据分析环节

2.⭐Fayyad数据挖掘过程主要包含七个阶段:

①数据清理

②数据集成

③数据选择

④数据变换

⑤数据挖掘

⑥模式评估

⑦知识表示

3.数据挖掘和机器学习的定义

数据挖掘是一种深层次地数据分析方法,需要对涉及到地海量数据进行管理与分析

数据库领域的研究为数据挖掘提供数据管理技术对于利用计算机对历史数据的分析,就是误码通常所说的机器学习

机器学习的定义:

机器学习是利用经验来改善计算机系统自身的性能,机器学习需要:

①通过数据分析建立模型

②利用算法对模型进行优化

③使计算机不断模拟人的学习行为来获取新的知识和技能,不断改善性能从而实现自我完善

机器学习方法构成地三元素

①模型        ②策略        ③算法

可简单表示为:机器学习 = 模型+策略 + 算法

模型是从数据中抽象用来描述客观世界的数学模型

机器学习的根本目的是构建一个模型来描述历史的数据规律,通过这个模型对未来进行预测

策略是选择模型的标准

假设空间往往包括多个模型,策略来确定哪一个模型是最好的

算法是指学习模型的具体计算方法,即在确定寻找最优模型的策略后,机器学习的问题归结于最优化问题,其优化算法是指求解模型参数最优解的算法

4.数据挖掘和机器学习、数据库的关系:

利用数据库提供的技术来管理海量数据,利用机器学习方法来分析挖掘数据背后的知识

数据挖掘注重运用算法或其他某种模式解决实际问题,偏实践和应用

机器学习注重相关机器学习算法的理论研究和算法优化,为数据挖掘提供了理论方法,偏理论和学术

数据挖掘技术是机器学习技术的一个实际应用

广义上来看,同属于知识发现的范畴,只是侧重点不同

相关术语:

①人工智能AI是一个大的领域概念

②机器学习是人工智能的一个重要领域

③统计学主要是利用机器学习来对数据挖掘产生影响

④机器学习和数据库是数据挖掘两大支撑技术

⑤模式识别是机器学习的一个工程应用

⑥机器学习可以从数据中实现系统的构建,而模式识别是对数据中模式和规律性的识别

⑦神经网络是机器学习中一个重要的方法,深度学习就是多层次的神经网络,是神经网络的高级阶段

5.习题

1.

2.

3.

4.

5.

6.

二、机器学习过程及其发展历程

1.机器学习基本过程

①第一步 数据集准备:机器学习是数据贪婪的,数据采集是最基础、最重要的一步,从不同的数据源收集数据,数据集是构建机器学习模型的起点。

②第二步 数据预处理:数据预处理是指对数据进行清洗、归约转换等。通过对数据进行各种检查和校正以纠正缺失值、异常、标准化等问题。通过预处理将数据结构化以便满足模型训练的需要。第一和第二步属于机器学习初级阶段
③第三步模型选择:根据具体任务特定问题的要求,选择合适的模型,根据机器学习模型对于训练数据处理方式的不同,机器学习算法可以大致可分为:监督学习无监督学习强化学习等。

④第四步模型训练:机器学习过程的核心是模型训练通过训练历史经验数据,对选择的模型的参数进行不断优化,最小化模型预测带来的误差。

第三和第四部属于机器学习中级阶段。

⑤第五步模型评估优化:在训练好模型之后,利用在数据预处理中准备好的测试数据集对模型进行测试。对模型评估结束后,还可以通过调参对训练过程进行优化。

⑥第六步应用预测:使用完全训练好的模型在新数据上做预测,这是机器学习过程的最后一步,在此阶段默认该模型已准备就绪,可以用于实际应用。

第五和第六步属于机器学习高级阶段,实现智能的目标。

2.机器学习的发展历程

数据挖掘与机器学习的本质是一样的

区别:

①数据挖掘更接近于数据端

②机器学习更接近于智能端

人工智能发展的三个时期:

3.习题

1.

2.

3.

4.

5.

6.

三、机器学习算法及数据隐私权

1.机器学习算法分类

我们通过系统的反馈方法的不同,将机器学习算法分为:无监督学习、有监督学习、强化学习

数据集的相关定义:

训练集、验证集、测试集

①训练集

训练集也称为样本数据集,是用于训练构造模型的数据集,通过设置模型参数、训练模型、建立机器学习模型

训练集由数据对象组成,每个对象所属类别已知,在构造模型时,需要输入一定数量的训练集,选取的训练集是否合适直接影响到分类器性能的好坏

②验证集

训练集训练出的多个模型对验证集数据进行预测,并记录模型准确率,从而选出效果最佳的模型所对应的参数,也就是说验证集用来调整模型参数。当模型无需人为设定超参数,所有参数都通过学习得到时就不需要验证集

③测试集

用于测试基于训练集构造的模型的性能。在模型产生后,由模型判定测试集对象的所属类别与测试集已知的所属类别进行比较,得出分类器的正确率等一系列评价性能指标。

2.机器学习的三类方法

①无监督学习:

无监督学习也叫无导师学习,实际应用中,在无法预先知道样本标签的情况下,训练数据类别未知,需要根据样本间的相似性对样本集进行划分,使类内的距离最小化类间的距离最大化。无监督学习常见包括聚类、降维关联规则等。

聚类是基于样本间的相似性来对样本进行划分,常见的聚类算法有:

习题

1.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/763988.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【群晖】Docker Compose部署 Emby Server

【群晖】Docker Compose部署 Emby Server 本来群晖上面的 Emby 是用套件安装的,但是不巧的是前两天脑袋一抽装了两个插件,导致 Emby Server被当肉鸡了,还找不到脚本代码在哪儿,一天时间上传了3T的流量。无奈之下,只能尝…

【python绘图colorbar对齐】

[Toc]# 1、问题描述 python在绘图过程中,可能会出现colorbar高度与主图不匹配情况,需要进行调整,使得与主图高度对齐,使图像更美观。示例:colorbar位置高于主图 2、解决方法 通过调整shrink参数匹配对齐,pad调整x轴…

《妈妈是什么》笔记(二) 让孩子自己做选择

经典摘录 孩子也会需要独立的空间做事情,求独立、求空间、求私隐 对于不管因为什么,别人在受到肯定和赞赏的时候,会对我们自己的心理带来因“比较”而产生的不适感甚至嫉妒感,进而在行为上影响了我们自己的节奏,产生一…

ThingsBoard初始化数据库Postgres+Cassandra

本章将介绍ThingsBoard初始化数据PostgresCassandra,两种数据库结合使用,以及源码的编译安装。本机环境:Centos7、Docker、Postgres、Cassandra 环境安装 开发环境要求: docker ;Docker;Postgres:Cassandr…

Django日志(一)

一、概念与配置 1.1、概述 日志是程序员经常在代码中使用快速和方便的调试工具。它在调试方面比print更加的优雅和灵活 而且日志记录对于调试很有用,可以提供更多,更好的结构化,有关应用程序的状态和运行状况的信息 Django框架的日志通过python内置的logging模块实现的,可…

基于Gabor滤波器的指纹图像识别,Matlab实现

博主简介: 专注、专一于Matlab图像处理学习、交流,matlab图像代码代做/项目合作可以联系(QQ:3249726188) 个人主页:Matlab_ImagePro-CSDN博客 原则:代码均由本人编写完成,非中介,提供…

2024年【山东省安全员C证】考试试卷及山东省安全员C证复审模拟考试

题库来源:安全生产模拟考试一点通公众号小程序 山东省安全员C证考试试卷是安全生产模拟考试一点通生成的,山东省安全员C证证模拟考试题库是根据山东省安全员C证最新版教材汇编出山东省安全员C证仿真模拟考试。2024年【山东省安全员C证】考试试卷及山东省…

【Linux】信号的处理{信号处理的时机/了解寄存器/内核态与用户态/信号操作函数}

文章目录 0.对于信号捕捉的理解1.信号处理的时机1.1 何时处理信号?1.2 内核态和用户态1.3 内核态和用户态的切换 2.了解寄存器3.信号捕捉的原理4.信号操作函数4.1sighandler_t signal(int signum, sighandler_t handler);4.2int sigaction(int signum, const struct…

express+mysql+vue,从零搭建一个商城管理系统15--快递查询(对接快递100)

提示:学习express,搭建管理系统 文章目录 前言一、安装md5,axios二、新建config/logistics.js三、修改routes/order.js四、查询物流信息五、试错与误区总结 前言 需求:主要学习express,所以先写service部分 快递100API…

工业项目中你连DCS系统都没见过?

什么是DCS DCS,即分散控制系统,是一种用于监控和控制工业过程的系统。它通过连接多个控制器、传感器和执行器实现自动化控制,提高生产效率和安全性。在中国,随着工业化和自动化水平的提高,DCS技术得到了广泛应用和快速…

外包干了10天,技术倒退明显

先说情况,大专毕业,18年通过校招进入湖南某软件公司,干了接近6年的功能测试,今年年初,感觉自己不能够在这样下去了,长时间呆在一个舒适的环境会让一个人堕落!而我已经在一个企业干了四年的功能测试&#xf…

SpringMVC 简介及入门级的快速搭建详细步骤

MVC 回顾 MVC,即Model-View-Controller(模型-视图-控制器)设计模式,是一种广泛应用于软件工程中,特别是Web应用开发中的架构模式。它将应用程序分为三个核心组件: Model(模型)&#…

PagePlug多条件查询方案

正确实现 使用Case When来编写查询条件 SELECT * FROM pc_ticket_tax_cloud WHERE 11 AND (CASE WHEN {{data_table.searchText ! }} THEN xsddm like {{data_table.searchText || ""}}%ELSE 11 END ) AND (CASE WHEN {{doc_code_input.text ! }} THEN doc_code li…

Git浅谈配置文件和免密登录

一、文章内容 简述git三种配置ssh免密登录以及遇见的问题git可忽略文件git remote 相关操作 二、Git三种配置 项目配置文件(局部):项目路径/.git/config 文件 git config --local user.name name git config --local user.email 123qq.cc全局配置文(所有用户): …

【Web】记录CISCN 2021 总决赛 ezj4va题目复现——AspectJWeaver

目录 前言 原理分析 step 0 step 1 EXP 前文:【Web】浅聊Java反序列化之AspectJWeaver——任意文件写入-CSDN博客 前言 这就是当年传说中的零解题嘛😭,快做🤮了 有了之前的经验,思路顺挺快的,中间不…

网络基础(一)初识

1、计算机网络背景 1.1、网络发展 1. 独立模式: 计算机之间相互独立; 2. 网络互联: 多台计算机连接在一起,完成数据共享; 3. 局域网LAN: 计算机数量更多了, 通过交换机和路由器连接在一起; 4. 广域网WAN: 将远隔千里的计算机都连在一起;…

【python】python汽车效能数据集—回归建模(源码+数据集)【独一无二】

👉博__主👈:米码收割机 👉技__能👈:C/Python语言 👉公众号👈:测试开发自动化【获取源码商业合作】 👉荣__誉👈:阿里云博客专家博主、5…

yaml 语法和在线解析工具

文章目录 在线解析工具1. 简介2. 语法规则3. 数据类型3.1 数组:3.2对象:3.3 标量3.4 复合结构3.5 锚点3.5.1 单个锚点3.5.6 多个锚点 3.6 引号 参考 在线解析工具 工具1 工具2 1. 简介 Yaml是一种可读性高的数据标记语言,Yaml文件是一种配…

45.i++和++i

目录 一.基本概念 二.区别 三.总结 四.视频教程 一.基本概念 i和i两者的作用都是自增加1。单独使用的话,i和i,效果都是一样的,就是ii1。 int main() {int i 0;i; } int main() {int i 0;i; } 最后的结果都是1。 二.区别 如上单独使…

SpringBoot—@ConditionalOnBean与@ConditionalOnClass

一、ConditionalOnBean概念 需求场景 比如下面一种场景,我在实例化People对象的时候,需要注入一个City对象。这个时候问题来了,如果city没有实例化,那么下面就会报空指针或者直接报错。 所以这里需求很简单,就是当前c…