机器学习笔记-01

一…AI(人工智能)
二.机器学习–是人工智能实现的途径
三.深度学习–是机器学习的一个方法
1.机器学习能做什么:
1.1 传统预测
1.2 图像识别
1.3 自然语言处理(nlp)

2.数据集包含:特征值 + 目标值
3.机器学习分为:监督学习 、非监督学习、半监督学习
4.机器学习开发流程:
4.1 获取数据
4.2 处理数据
4.3 特征工程
4.4 算法模型-- 模型
4.5 模型评估
4.6 应用

基础书籍:机器学习 -”西瓜书”- 周志华 统计学习方法 - 李航 深度学习 - “花书”

5.数据集:
5.1.sklearn
sklearn.datasets
load_* 获取小规模的数据集 sklearn.datasets.load_iris()
fetch_* 获取大规模的数据集
sklearn.datasets.fetch_20newsgroups(data_home=None,subset=‘train’)
数据集的返回值
datasets.base.Bunch(继承自字典)
dict[“key”] = values
bunch.key = values
5.2.kaggle
5.3.UCI

5.4数据集的划分:
训练集:用于训练,构建模型
测试集:在模型检验时使用,用于评估模型是否有效,20%~30%
sklearn.model_selection.triain_test_split(arrays, *options)
训练集特征值,训练集目标值,测试集特征值,测试集目标值
x_train,x_test,y_train,y_test

6.特征的提取
sklearn.feature_extraction
6.1 字典特征提取- 类别–》one-hot 编码
sklearn.feature_extraction.DictVectorizer(sparse=True,…)
矩阵 matrix 二维数组
向量 vector 一维数组

6.2 文本特征提取
单词 作为 特征
句子、短语、单词、字母
特征:特征词
方法1:CountVectorizer
统计每个样本特征词出现的个数
stop_words停用的
停用词表
关键词:在某一个类别的文章中,出现的次数很多,但是在其他类别的文章当中出现很少
方法2:TfidfVectorizer
TF-IDF - 重要程度
TF - 词频(term frequency,tf)
IDF - 逆向文档频率

6.3 特征预处理
无量纲化
归一化:会有异常值影响大小
标准化:(x - mean) / std
标准差:集中程度
应用场景:在已有样本足够多的情况下比较稳定,适合现代嘈杂大数据场景。

  1. 特征降维
    7.1降低维度
    维数:嵌套的层数
    0维 标量
    1维 向量
    2维 矩阵
    3维
    n维
    二维数组:
    此处的降维:降低特征个数
    效果:消除特征与特征之间的相关性

主成分分析(PCA)
sklearn.decomposition.PCA(n_components=None)
n_components
小数 表示保留百分之多少的信息
整数 减少到多少特征

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/3645.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python绘制三维图

在Python中,我们可以使用matplotlib库中的mplot3d工具包来绘制三维图。下面是一个简单的例子,绘制了一个三维的散点图和一个三维曲面图: 首先,确保已经安装了matplotlib库。如果没有,可以通过pip进行安装:…

C#中的Task:异步编程的瑞士军刀

在现代软件开发中,异步编程已经成为处理I/O密集型任务和网络操作的重要手段。C#中的Task是.NET Framework 4.0引入的一个并发编程的抽象,它在后续的.NET Core和.NET 5中得到了进一步的发展和完善。Task代表了一个异步操作,可以等待它的完成&a…

统一所有 LLM API:支持预算与速率限制 | 开源日报 No.229

BerriAI/litellm Stars: 6.7k License: NOASSERTION litellm 是一个使用 OpenAI 格式调用所有 LLM API 的工具。它支持 Bedrock、Azure、OpenAI、Cohere、Anthropic 等 100 多种 LLMs,提供企业级代理服务器和稳定版本 v1.30.2。 主要功能和优势包括: 将…

javaEE初阶——多线程(八)——常见的锁策略 以及 CAS机制

T04BF 👋专栏: 算法|JAVA|MySQL|C语言 🫵 小比特 大梦想 此篇文章与大家分享分治算法关于多线程进阶的章节——关于常见的锁策略以及CAS机制 如果有不足的或者错误的请您指出! 目录 多线程进阶1.常见的锁策略1.1乐观锁和悲观锁1.2重量级锁 和 轻量级锁1.…

【大数据】分布式数据库HBase

目录 1.概述 1.1.前言 1.2.数据模型 1.3.列式存储的优势 2.实现原理 2.1.region 2.2.LSM树 2.3.完整读写过程 2.4.master的作用 1.概述 1.1.前言 本文式作者大数据系列专栏中的一篇文章,按照专栏来阅读,循序渐进能更好的理解,专栏…

JS实现对用户名、密码进行正则表达式判断,按钮绑定多个事件,网页跳转

目标&#xff1a;使用JS实现对用户名和密码进行正则表达式判断&#xff0c;用户名和密码正确时&#xff0c;进行网页跳转。 用户名、密码的正则表达式检验 HTML代码&#xff1a; <button type"submit" id"login-btn" /*onclick"login();alidate…

探索企业微信助手工具:强化沟通协作,助力高效办公

随着企业信息化建设的深入发展&#xff0c;企业微信助手工具作为一种集成化、智能化的办公辅助工具&#xff0c;正逐渐受到企业的青睐。企业微信助手不仅能够帮助企业提高工作效率&#xff0c;还能增强沟通协作能力&#xff0c;为企业发展注入新的活力。本文将简要介绍企业微信…

精益思想赋能数字化转型:落地策略与实践路径

当下&#xff0c;数字化转型已不再是选择题&#xff0c;而是关乎企业生存与发展的必答题。然而&#xff0c;转型过程中如何确保效率、降低成本并快速实现价值创造&#xff0c;成为了摆在众多企业面前的难题。精益思想作为一种追求精益求精、持续改进的管理思维&#xff0c;为数…

2024最新版JavaScript逆向爬虫教程-------基础篇之面向对象

目录 一、概念二、对象的创建和操作2.1 JavaScript创建对象的方式2.2 对象属性操作的控制2.3 理解JavaScript创建对象2.3.1 工厂模式2.3.2 构造函数2.3.3 原型构造函数 三、继承3.1 通过原型链实现继承3.2 借用构造函数实现继承3.3 寄生组合式继承3.3.1 对象的原型式继承3.3.2 …

Linux 抽象命名空间(Abstract Namespace)详细介绍

Linux 抽象命名空间&#xff08;Abstract Namespace&#xff09;是 Unix 域套接字&#xff08;Unix Domain Socket, UDS&#xff09;家族中的一种特殊类型&#xff0c;用于进程间通信&#xff08;IPC&#xff09;。相比于传统的 Unix 域套接字&#xff08;文件系统命名空间和临…

stm32HAL库-GPIO

一 什么是 GPIO: GPIO(general porpose intput output), 通用输入输出端口 . 二 我们先认识芯片控制 GPIO 输出控制。 2.1LED 硬件原理如图&#xff1a; 当电流从这根电线流通&#xff0c; LED 亮。当电流不通过这根电线&#xff0c; LED 灭。 上面 PF** &#xff0c;芯片电…

MySQL面试——聚簇/非聚簇索引

存储引擎是针对表结构&#xff0c;不是数据库 引擎层&#xff1a;对数据层以何种方式进行组织 update&#xff1a;加索引&#xff1a;行级锁&#xff1b;不加索引&#xff1a;表级锁

bootstrap带左右固定列表格,列选择操作后,表头和内容无法对其问题。

通过属性showColumns: true,开始列选择后&#xff0c; &#xff08;1&#xff09;列变动后&#xff0c;列总数量依然较多存在滚动轴时&#xff0c;右侧少一部分问题。 &#xff08;2) 列变动后&#xff0c;选择列数较少时&#xff0c;左右固定列消失&#xff0c;表头和表格无法…

固态继电器:推进可再生能源系统

随着可再生能源系统的发展&#xff0c;太阳能系统日益成为现代能源解决方案的先锋。在这种背景下&#xff0c;固态继电器&#xff08;SSR&#xff09;&#xff0c;特别是光耦固态继电器的利用变得日益突出。本文旨在深入探讨SSR在可再生能源系统中的多方位应用&#xff0c;重点…

【学习笔记】Python 使用 matplotlib 画图

文章目录 安装中文显示折线图、点线图柱状图、堆积柱状图坐标轴断点参考资料 本文将介绍如何使用 Python 的 matplotlib 库画图&#xff0c;记录一些常用的画图 demo 代码 安装 # 建议先切换到虚拟环境中 pip install matplotlib中文显示 新版的 matplotlib 已经支持字体回退…

SD-WAN:灵活、低成本、便于管理

近年来&#xff0c;SD-WAN&#xff08;软件定义广域网&#xff09;技术成为企业网络领域的新趋势&#xff0c;其带来的变革性影响备受瞩目。凭借出色的灵活性、高效的可管理性以及显著的成本优势&#xff0c;SD-WAN技术为企业网络注入了新的活力。 首先&#xff0c;SD-WAN技术的…

4- JavaScript对象

JavaScript对象 一、数组 数组(Array)是指一组数据的集合&#xff0c;其中的每个数据被称作元素&#xff0c;数组是属于内置对象&#xff0c;数组和普通对象的功能类似&#xff0c;都可以用来存储一些值。不同的是&#xff1a; 普通对象是使用字符串作为属性名&#xff0c;而…

前端HTML面试题:meta 元素都有什么

在HTML中&#xff0c;<meta> 元素是一个非常重要且常用的元素&#xff0c;它用于表示关于HTML文档的元数据&#xff08;metadata&#xff09;&#xff0c;这些元数据不会直接显示在页面上&#xff0c;但可以被浏览器以及其他网页服务利用。在前端开发的面试中&#xff0c…

如何利用diskpart命令界面在win10/win11上解除U盘写保护

背景 在把U盘作为系统盘装了一次后&#xff0c;惊讶的发现自己U盘的一个1M的小卷被写保护了。不能格式化&#xff0c;不能删除文件&#xff0c;在给用户拷文件的时候&#xff0c;小卷还会提示病毒告警&#xff0c;非常的尴尬&#xff0c;因此展开了研究。 失败的尝试 尝试了网…

Oracle expdp/impdp 及 exp/imp 命令详解

一、基础环境    操作系统&#xff1a;Windows 或 Linux 数据库版本&#xff1a;Oracle Database 11.2.0.1.0 及以上版本 二、命令简介    我们在使用Oracle 数据库的过程中会经常对数据进行导入导出。Oracle 数据库提供 expdp / impdp &#xff08;Data Pump&#xff0c…