【机器学习基础1】什么是机器学习、预测模型解决问题的步骤、机器学习的Python生态圈

文章目录

  • 一. 什么是机器学习
    • 1. 概念
    • 2. 机器学习算法分类
  • 二. 利用预测模型解决问题的步骤
  • 三. 机器学习的Python生态圈

一. 什么是机器学习

1. 概念

机器学习(Machine Learning,ML)是一门多领域的交叉学科,涉及概率论、统计学、线性代数、算法等多门学科。

它专门研究计算机如何模拟和学习人的行为,以获取新的知识或技能,重新组织已有的知识结构使之不断完善自身的性能。

机器学习已经有了十分广泛的应用,例如:数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、战略游戏和机器人运用。

 

2. 机器学习算法分类

机器学习的算法分为两大类:监督学习和无监督学习。

监督学习

监督学习即在机器学习过程中提供对错指示。一般是在数据组中包含最终结果(0,1),通过算法让机器自己减少误差。这一类学习主要应用于分类和预测(Regression &Classify)。

基本逻辑
监督学习从给定的训练数据集中学习出一个目标函数,当新的数据到来时,可以根据这个函数预测结果。监督学习的训练集要求包括输入和输出,也可以说包括特征和目标,训练集中的目标是由人标注的

常见的监督学习算法包括回归分析和统计分类。

 
非监督学习

非监督学习又称归纳性学习(Clustering),利用K方式(KMean)建立中心(Centriole),通过循环和递减运算(Iteration&Descent)来减小误差,达到分类的目的。

 

 

二. 利用预测模型解决问题的步骤

预测模型

与统计学不同,机器学习的预测模型是用来理解数据的,聚焦于如何创建一个更加精准的模型,而不是用来解释模型是如何设置的。

 

利用机器学习的预测模型来解决问题共有六个基本步骤,如图:

在这里插入图片描述

  • 定义问题:研究和提炼问题的特征,以帮助我们更好地理解项目的目标。
  • 数据理解:通过描述性统计和可视化来分析现有的数据。
  • 数据准备:对数据进行格式化,以便于构建一个预测模型。
  • 评估算法:通过一定的方法分离一部分数据,用来评估算法模型,并选取一部分代表数据进行分析,以改善模型。
  • 优化模型:通过调参和集成算法提升预测结果的准确度。
  • 结果部署:完成模型,并执行模型来预测结果和展示。

一旦明白了如何使用Python平台来完成机器学习的任务,就可以在不同的项目中重复使用这种方法解决问题。

 

三. 机器学习的Python生态圈

Python是一种功能强大且灵活的编程语言,特别适用于机器学习,这得益于其可读性、一致性和健壮的数据科学库生态系统。

  • Python基础:Python编程需要理解基本语法、数据类型、错误处理和面向对象编程。
  • 数据科学库:熟悉NumPy进行数值操作,用Pandas进行数据处理和分析,用Matplotlib和Seaborn做数据可视化。
  • 数据预处理:涉及特征缩放和规范化、处理缺失数据、异常检测、类别数据编码,以及将数据分割为训练、验证和测试集。
  • 机器学习库:熟练使用Scikit-learn,这是一个提供广泛的监督和无监督学习算法的python库。这里需要理解如何实现线性回归、逻辑回归、决策树、随机森林、最近邻(K-NN)和K均值聚类等算法。

简单来说

  • scikit-learn提供的机器学习的算法
  • 利用NumPy数组来准备机器学习算法的数据
  • 使用Matplotlib来创建图表,展示数据
  • 通过Pandas导入、展示数据,以便增强对数据的理解和数据清洗、转换等工作.

其中

scikit-learn依赖于SciPy及其相关类库来运行。scikit-learn的基本功能主要分为六大部分:分类、回归、聚类、数据降维、模型选择和数据预处理。

需要指出的是,由于scikit-learn本身不支持深度学习,也不支持GPU加速,因此scikit-learn对于多层感知器(MLP)神经网络的实现并不适合处理大规模问题。(scikit-learn对MLP的支持在0.18版之后增加)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/4973.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

设计模式学习笔记 - 项目实战三:设计实现一个支持自定义规则的灰度发布组件(设计)

概述 上篇文章,我们介绍了灰度组件的一个需求场景,将公共服务平台的 RPC 接口,灰度替换为新的 RESTful 接口,通过灰度逐步放量,支持快速回滚等手段,来规避代码质量问题带来的不确定性风险。 跟前面两个框…

服务器数据恢复—Storwize V3700存储数据恢复案例

服务器存储数据恢复环境: 某品牌Storwize V3700存储,10块硬盘组建了2组Mdisk加入到一个存储池中,一共创建了1个通用卷来存放数据,主要数据为oracle数据库。 服务器存储故障: 其中一组Mdisk中两块磁盘出现故障离线&…

【每日刷题】Day28

【每日刷题】Day28 🥕个人主页:开敲🍉 🔥所属专栏:每日刷题🍍 🌼文章目录🌼 ​ 1. 121. 买卖股票的最佳时机 - 力扣(LeetCode) 2. 205. 同构字符串 - 力扣…

解决python file.read()读取文件为空报错

问题描述 今天写的python脚本出现了file.read()读不到文件内容的问题,原脚本如下: with open(path,r) as f:znre.compile(rZN ZN)znallzn.findall(f.read())if len(znall) 1:list2.append(id)for i in list1:#print(f.read())if i in f.read():lis…

如何写得一手优雅规范的SpringBoot 接口?

导语 优雅的代码赏心悦目,你的代码触目惊心。 当编写 Spring Boot 接口时,优雅和规范是至关重要的。一个良好设计的接口能够提高代码的可读性、可维护性和可扩展性,从而为整个应用程序的开发和维护带来便利。 在本文中,我们将探讨…

关于discuz论坛网址优化的一些记录(网站地图sitemap提交)

最近网站刚上线,针对SEO做了些操作,为了方便网站网页百度被收录,特此记录下 discuz有免费的sitemap插件可以用,打开后台管理,找到插件栏,然后找到更多插件,进入插件市场。 选择这个免费的sitem…

【数据分析面试】34.填充NaN值 (Python:groupby/sort_value/ffill)

题目:填充NaN值 (Python) 给定一个包含三列的DataFrame:client_id、ranking、value 编写一个函数,将value列中的NaN值用相同client_id的前一个非NaN值填充,按升序排列。 如果不存在前一个client_id,则返…

Linux详解:进程等待

文章目录 进程等待等待的必要性进程等待的方法waitwaitpid获取子进程status阻塞等待 与 非阻塞等待 进程等待 等待的必要性 子进程退出,父进程不进行回收的话,就可能造成僵尸进程,进而造成内存泄露 如果进程进入了僵尸状态,kill…

Tcp自连接

Tcp自连接 如果客户端和服务端都在同一个环境,并且客户端先于服务端启动,那么很有可能产生自连接的现象。 所谓自连接,就是tcp两端使用了同一个端口进行连接,即localhost:port->localhost:port。 实现自连接 下面提供一个例…

GITEE 基于OAuth2的API V5版本

为了构建更好的码云生态环境,我们推出了基于OAuth2的API V5版本。 API V5接口使用方式以及Url都参照GitHub,为了各位开发者更好的兼容已经存在的第三方应用。 API 使用条款 OSCHINA 用户是资源的拥有者,需尊重和保护用户的权益。不能在应用…

4.29 IO多路复用

管道,就是用于进程之间的通信文件,根本不会用到磁盘内容,只是用来标记一块缓冲区,所以无论任何时候大小都是0。 管道必须要同时打开,只开一端是不行的,这样的话不能进行后续的操作,会卡在那里&…

基于SpringBoot+Vue高校竞赛管理系统的设计与实现

项目介绍: 高校竞赛管理系统管理系统按照操作主体分为管理员和用户。管理员的功能包括字典管理、论坛管理、竞赛公告管理、获奖管理、老师管理、评审管理、评审分配管理、评审打分管理、赛事管理、赛事提交管理、赛事报名管理、用户管理、专家管理、管理员管理。用…

如何安装最新版Docker Compose?

Docker Compose 是一个用于定义和运行多容器 Docker 应用程序的工具。通过 Compose,您可以使用 YAML 文件来配置应用服务,然后只需一个简单的命令便能创建和启动所有服务。在本篇博客中,我们将详细介绍如何在 Linux 系统上安装 Docker Compos…

修改ETCD返回数据限额

问题 通过 get_prefix, get_range 等ETCD 接口查询大量数据时,报数据大小超过限额。 grpc_message:“Received message larger than max (5834875 vs. 4194304)” 原因 ETCD默认设置了4MB数据限额,如果返回的数据超过限额则会报错。 解决方法 解决方…

可以向同事炫耀的10个Python技巧

Python 是一种用途极为广泛的编程语言,有大量的库和框架为其提供支持。然而,在庞大的 Python 生态系统中,还存在一些鲜为人知的编码技巧和库,它们可以显著增强您的开发体验并优化您的代码。我们将探讨一些鲜为人知的 Python 技巧&…

0071__waitwaitpid函数详解

(4)wait&&waitpid函数详解_c语言 waitpid-CSDN博客

W801学习笔记十六:掌机系统——启动第一个应用

在开始游戏应用开发之前,我们先搞一个简单的应用,目的是把菜单操作与应用启动之间打磨平顺。 这里,我们做一个关于About页面即可。 1、菜单项JSON的定义: [{"t": "关于","i": "menu/test16…

与Apollo共创生态:七周年大会深有体会!

前言 百度从2013年开始涉足自动驾驶领域。2017年3月1日,百度通过内部邮件宣布,将现有业务和资源整合,成立智能驾驶事业群组(简称IDG)。同年,在上海车展上,百度发布了“Apollo计划”&#xff0c…

Git:克隆代码,提交流程,分支提交流程

1.克隆代码 git clone http://…(代码地址) 克隆代码到本地 2.提交流程(不牵涉分支) 1)git add . 将本地修改的文件暂存到缓存区 2)git commit -m "当次提交解释说明备注" 在日志中显示 3)git…

0426GoodsBiddingAJAX项目

0426GoodsBiddingAJAX项目包-CSDN博客 数据库字段 ​ 管理员的登录界面 ​ 登录成功跳转在线拍卖界面,使用监听器拦截请求,只能登录管理员后访问该界面 ​ 商品竞拍列表 ​ 商品竞拍列表的竞拍操作: ​ 1 用户未登录跳转用户登录界面&#x…