2024-11-12 学习人工智能的Day25 scikit-learn库初见

简简单单的数据集

from sklearn.datasets import load_iris/fectch

简单的引用世界数据集和玩具数据集方式

#下面是在获取数据集后常用的值

feature
feature_names
DESCR
target
target_names
filename

from sklearn.datasets import load_iris
import numpy as np
import pandas as pd
iris = load_iris()
feature= iris.data
target =iris.target
target.shape = (len(target),1)
data = np.hstack([feature,target])
cols = iris.feature_names
cols.append('target')
res = pd.DataFrame(data=data,columns=cols)
res

这里是的数据划分的工具

from sklearn.model_selection import train_test_split(*array ,**option)

train_test_split(data= , test_size=/train_size= , random_state=)

在使用中的案例

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
iris = load_iris()
x_train,x_test,y_train,y_test = train_test_split(iris.data,iris.target,train_size=0.8,random_state=666)
print(x_train.shape)
print(x_test.shape)
print(y_train.shape)
print(y_test.shape)

下面是特征工程里可能会用到的API等等

from sklearn.feature_extraction import DictVectorizer

CountVectorizer 这个才有stop_words可以设置,直接使用fit_transform的话返回的依旧是稀疏矩阵,主打的就是一个英文文本
的特征提取,所以我们换了一个工具去实现中文的
它的引用方法用到了feature_extraction中的text部分

DictVectorizer 创建工具,创建时设置/ 记错了,此方法没有stop_words,最简单的一个,用于字典列表的特征提取

TfidfVectorizer 找出来的可以用于中文文本提取的工具,但是依旧有一个前提
创建空白的运行框使用 ! pip install jieba 安装中文分词器
emmmm,又记错了,其实是count装个jeiba就可以中文识别了hhhhhh
TfidfVector的作用是文本特征字的重要程度提取,主要需要注意的是关于TF(词频)、IDC(逆文档频率)这两个值的计算公式

  • 在这里插入图片描述

在这里插入图片描述

最后值的话是TF-IDF=TF×IDF

MinMaxScaler 归一化

StandardScaler 标准化

VarianceThreshold

fit_transform 到处都在用,看下面的解释,在不通的工具中,它的去fit的值都不一样,然后transform的返回值也有区别

关于 fit 和 transform 在不同工具中的默认行为
fit 和 transform 的具体操作确实会根据工具的设计和应用的不同而有所不同。下面是一些常见的区别:

DictVectorizer:fit 解析字典中的键作为特征名,transform 将字典转换为向量。
StandardScaler:fit 计算每个特征的均值和标准差,transform 利用这些均值和标准差对数据进行标准化。
MinMaxScaler:fit 计算每个特征的最小值和最大值,transform 利用这些值将特征归一化到指定范围(例如 0 到 1)。
PCA(主成分分析):fit 计算数据的协方差矩阵并提取主成分,transform 将数据投影到这些主成分上。
值,transform 利用这些值将特征归一化到指定范围(例如 0 到 1)。
PCA(主成分分析):fit 计算数据的协方差矩阵并提取主成分,transform 将数据投影到这些主成分上。
这些工具的 fit 操作都是为了获取和保存特定的统计信息或转换参数,而 transform 则是实际应用这些参数的过程。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/60534.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

容器技术在持续集成与持续交付中的应用

💓 博客主页:瑕疵的CSDN主页 📝 Gitee主页:瑕疵的gitee主页 ⏩ 文章专栏:《热点资讯》 容器技术在持续集成与持续交付中的应用 容器技术在持续集成与持续交付中的应用 容器技术在持续集成与持续交付中的应用 引言 容器…

【项目场景】请求数据时测试环境比生产环境多花了1秒是怎么回事?

威哥,第一次给你发消息就是求教一个问题呢,近期我在优化系统查询的时候,在测试环境优化达标,但是发布到生产后,发现从客户端发起请求到接收响应,多花了1秒(测试环境的库数据量和生产一致&#x…

zookeeper之节点基本操作

ZooKeeper是一个分布式协调服务,它的节点操作包括创建、查询、更新、删除等,以下是ZooKeeper节点的基本操作介绍: 1. 创建节点 持久节点(Persistent Node) 含义:持久节点是ZooKeeper中最基本的节点类型。创建后,除非显式删除,否则它将一直存在于ZooKeeper树中,即使创…

C++20新特性的补充讲解

C20 标志着 C 语言的一次重要更新,除了 Concepts、Ranges、协程等被广泛讨论的特性外,还有许多值得注意的改进。本文将详细探讨其他一些核心新特性,包括 constexpr 扩展、新增的 std::format、std::span、std::bit 操作、原子智能指针、char8…

Docker无缝更新Zentao

在现代软件开发中,保持项目管理工具的更新对于提高团队效率至关重要。对于使用Docker部署Zentao(禅道)的团队来说,如何在不影响日常业务的情况下进行更新是一个常见挑战。本文将基于一个实际的Docker Compose配置,详细介绍如何在Docker环境中实现Zentao的无缝更新。 1. 当…

2024 年将 Postman 文档导出为 HTML 或 Markdown

2024 年将 Postman 文档导出为 HTML 或 Markdown

Jsp的内置对象及方法

JSP(JavaServer Pages)是一种动态网页技术,它允许开发人员在HTML页面中嵌入Java代码。JSP内置对象提供了一系列预定义的方法和属性,这些方法和属性可以直接在JSP页面中使用,无需额外的Java代码。 request对象&#xff…

微服务架构面试内容整理-API 网关-Gateway

Spring Cloud Gateway 是一个用于构建 API 网关的框架,它为微服务架构提供了灵活的路由和过滤功能。作为 Spring Cloud 生态的一部分,Gateway 提供了易于使用的 API 和强大的功能,适合用于现代微服务架构中的请求管理和服务交互。以下是 Spring Cloud Gateway 的主要特点、工…

通过命令学习k8s

1、kubectl 命令可以列出所有命令 2、kubectl version 命令可以查看版本号 3、kubectl cluster-info命令可以查看集群信息(192.168.218.136:6443 即为kube-apiserver的IP和端口。) [rootk8s-master ~]# kubectl cluster-info Kubernetes master is run…

访问网页的全过程(知识串联)

开发岗中总是会考很多计算机网络的知识点,但如果让面试官只靠一道题,便涵盖最多的计网知识点,那可能就是 网页浏览的全过程 了。本篇文章将带大家从头到尾过一遍这道被考烂的面试题,必会!!! 总…

MySql数据库Group分组内排序取数据

文章目录 业务场景 业务场景 生产中遇到一个需求,需要统计在某段时间内指定客户的财务收款信息。 比如统计A客户10月1日~11月1日之间的财务应数据,在统计汇总的时候,需要计算A用户在10月1号前的结余信息,这就需要查询10月1日前这…

服务器硬件介绍

计算机介绍 现在的人们几乎无时无刻都在使用电脑!而且已经离不开电脑了。像桌上的台式电脑(桌机)、笔记本电脑(笔电)、平板电脑、智能手机等等,这些东西都算是电脑。 台式机电脑介绍 计算机又被称为电脑。台式机电脑主要分为主机和显示器两个部分&…

04-HTTP协议、请求报文、响应报文

欢迎来到“雪碧聊技术”CSDN博客! 在这里,您将踏入一个专注于Java开发技术的知识殿堂。无论您是Java编程的初学者,还是具有一定经验的开发者,相信我的博客都能为您提供宝贵的学习资源和实用技巧。作为您的技术向导,我将…

前端基础的讲解-JS(10)

作用域链 通过上节作用域我们知道,当我们声明一个函数时,程序会生成一个独立的作用域,如果函数中还有函数,那么在这个作用域中就又可以诞生一个作用域;根据 内部函数可以访问外部函数变量 的这种机制,用链…

基于Multisim人数出入加减计数统计电路(含仿真和报告)

【全套资料.zip】人数出入加减计数统计电路Multisim仿真设计数字电子技术 文章目录 功能一、Multisim仿真源文件二、原理文档报告资料下载【Multisim仿真报告讲解视频.zip】 功能 设计两路光控电路,一路放置在入口,另一路设置在出口,当有人…

PostgreSQL 多个库批量执行脚本

有这样的一个业务场景。在一个数据库实例上面有差不多 80 多个数据库 DATABASE,现在有一个需求,有一个脚本文件 .sql 需要在这 80 多个数据库上都执行一遍,那么有没有什么简单的方法可以实现。 [rootlocalhost ~]# [rootlocalhost ~]# su - …

车机安装第三方软件实现打开软件全屏教程

简介 越来越多的车友实现安装第三方软件了,但是有的车机的状态栏或者导航栏会遮挡安装的第三方软件。这样的话,第三方软件就会显示不全,体验感非常不好。所以,下面我教一下大家如何使用东君应用管家来实现打开第三方软件全屏。 全…

CLion配置QT开发环境

一、将qmake工程转为cmake工程(方法一:用工具转换并做适当修改) 1、工具链接:链接:https://pan.baidu.com/s/1grW2QY3sW8X2JaHWM_ePPw 提取码:7at4 工具源码:https://github.com/milahu/qmake2cmake 2、执行…

第3章-需求 3.4 需求的合法合规性审查

3.4 需求的合法合规性审查 3.4.1 项目需求的合法性审查3.4.2 委托研发项目的法律问题3.4.3 项目实施过程中的知识产权问题1.开发成果的知识产权保护2.开发过程中的侵权风险防控 近年来随着依法治国的深度开展,企业合规的概念越来越多地出现在大众眼前,也…

【监控】如何调出电脑的中摄像头,从摄像头获取视频流

import cv2 cap cv2.VideoCapture(0) if not cap.isOpened():print("摄像头没有加载成功")exit()while True:ret,frame cap.read()if not ret:print("没有接收帧")breakcv2.imshow("frame",frame)if cv2.waitKey(1) ord(q):break cap.release(…