特征抽取-----机器学习pycharm软件

导入包

from sklearn.datasets import load_iris  # 方法datasets_demo()数据集使用
from sklearn.feature_extraction import DictVectorizer   # 方法dict_demo()字典特征抽取用
from sklearn.feature_extraction.text import CountVectorizer #  方法count_demo()文本特征抽取、count_chinese_demo中文文本特征抽取使用
from sklearn.feature_extraction.text import TfidfVectorizer # 方法使用tfidf_demo()文本特征抽取
import jieba    #  方法count_chinese_demo文本特征抽取使用
import logging  #  方法count_chinese_demo文本特征抽取使用

sklearn数据集的使用

def datasets_demo():"""sklearn数据集的使用:return:"""iris = load_iris()print("鸢尾花数据集返回值:\n",iris)  #返回值是一个继承自字典的Benchprint("查看数据集描述:\n",iris["DESCR"])   #通过字典属性查看print("查看数据集特征名字:\n",iris.feature_names)print("查看特征值形状(几行几列):\n",iris.data.shape)return None

部分效果展示:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

字典特征抽取

def dict_demo():"""字典特征抽取:return:"""data = [{'city': '上海', 'temperature': 100}, {'city': '上海', 'temperature': 60},{'city': '北京', 'temperature': 60}]#   1.实例化一个转换器类transfer = DictVectorizer() # 参数默认True,即返回值是稀疏矩阵#   2.调用fit_transform()方法data_new = transfer.fit_transform(data)print("特征名字:\n", transfer.get_feature_names_out())print("data_new:\n",data_new)     #   输出为稀疏矩阵,输出 值 没有0 ,即非零值按位置表示出来,return None

效果展示:
在这里插入图片描述

文本特征抽取

def count_demo():"""文本特征提取:以单词作为特征值:return:"""data = ["life is beautiful,i like it very very much","life is not beatiful,but i am smile"]#   1.实例化一个转换器类transfer = CountVectorizer()#   2.调用fit_transform()方法data_new = transfer.fit_transform(data)print("数据特征:\n",transfer.get_feature_names_out())print("data_new:\n",data_new)   # 返回稀疏矩阵print("数据特征:\n", transfer.get_feature_names_out())print("data_new:\n",data_new.toarray()) #  看二维数据,对样本出现特征词的个数进行统计return None

效果展示:
在这里插入图片描述

中文文本特征抽取

def count_chinese_demo():"""中文文本特征提取 : 以短语作为特征值, 如果需要实现单词作为特征值的效果,有两种方法.1.手动实现,需要用空格隔开实现,eg:生活 美好,我 非常 非常 喜欢2.jieba分词:return:"""data = ["生活美好,我非常非常喜欢", "生活不好,但我微笑面对"]data2 = ["生活 美好,我 非常 非常 喜欢","生活 不好,但 我 微笑 面对"]#   1.实例化一个转换器类transfer = CountVectorizer()transfer2 = CountVectorizer()#   2.调用fit_transform()方法data_new = transfer.fit_transform(data)print("数据特征:\n",transfer.get_feature_names_out())print("data_new:\n",data_new)   # 返回稀疏矩阵print("数据特征:\n", transfer.get_feature_names_out())print("data_new:\n", data_new.toarray())  # 看二维数据,对样本出现特征词的个数进行统计print("=========================数据用空格分开后============================")data_new2 = transfer2.fit_transform(data2)print("数据特征:\n", transfer2.get_feature_names_out())print("data_new:\n", data_new2)  # 返回稀疏矩阵print("数据特征:\n", transfer2.get_feature_names_out())print("data_new:\n", data_new2.toarray())  # 看二维数据,对样本出现特征词的个数进行统计print("=========================jieba分词============================")# """#     代码#     a = [list(jieba.cut(sentence)) for sentence in data]#     print(a)#     输出中包含了关于jieba分词库的信息.这是因为在第一次运行jieba.cut时,它会加载分词所需的词典和模型文件,这些文件会被缓存起来以提高后续的分词速度。#     因此,会看到类似"Building prefix dict from the default dictionary"、"Dumping model to file cache"、"Loading model cost"和"Prefix dict has been built successfully"这样的信息。#     这些信息表明分词库已经成功加载并准备好使用,#     而最后的输出[['生活', '美好', ',', '我', '非常', '非常', '喜欢'], ['生活', '不好', ',', '但', '我', '微笑', '面对']]则是分词后的结果。#     在调用jieba.cut之前,使用ieba.setLogLevel(logging.INFO)代码来关闭jieba的日志输出,控制jieba输出的日志信息,使其只输出INFO级别及以上的日志,而不输出DEBUG级别的日志。#     要注意,使用此代码要导入所需日志包    import logging# """# jieba.setLogLevel(logging.INFO) # 关掉日志信息# a = [list(jieba.cut(sentence)) for sentence in data]    # 此时a是一个列表# b = " ".join([" ".join(jieba.cut(sentence)) for sentence in data] ) # 此时b是字符串,首先使用列表推导式将每个句子分词后得到的列表通过空格连接成一个字符串,然后再使用空格将这些字符串连接成一个大的字符串,最终将结果赋值给变量b# print(a,type(a),"\n",b,type(b))# #根据这些测试 总结为一个方法cut_word方便使用#   1.将中文文本进行分词jieba.setLogLevel(logging.INFO)  # 关掉日志信息data_new3 = []for sent in data:data_new3.append(cut_word(data))# print(data_new3)#   2.实例化转换器transfer3 = CountVectorizer()#   3.调用方法data_final = transfer3.fit_transform(data_new3)print("数据特征:\n", transfer3.get_feature_names_out())print("data_new:\n", data_final.toarray())  # 看二维数据,对样本出现特征词的个数进行统计return Nonedef cut_word(text):"""jieba分词  进行中文分词:param text::return:"""return " ".join([" ".join(jieba.cut(sentence)) for sentence in text] )print("==============用TF-IDF的方法进行文本特征抽取================")def tfidf_demo():"""用TF-IDF的方法进行文本特征抽取:return:"""data = ["生活美好,我非常非常喜欢", "生活不好,但我微笑面对"]#   1.将中文文本进行分词jieba.setLogLevel(logging.INFO)  # 关掉日志信息data_new = []for sent in data:data_new.append(cut_word(data))# print(data_new3)#   2.实例化转换器transfer3 = TfidfVectorizer()#   3.调用方法data_final = transfer3.fit_transform(data_new)print("数据特征:\n", transfer3.get_feature_names_out())print("data_new:\n", data_final.toarray())  # 看二维数据,对样本出现特征词的个数进行统计return None

在这里插入图片描述
在这里插入图片描述

调用方法

什么抽取都写成了方法需要调用才可以输出,输出效果如“效果展示”所示

if __name__ == '__main__':#skilearn数据集的使用datasets_demo()#字典特征提取dict_demo()# 文本特征抽取count_demo()#中文文本特征抽取count_chinese_demo()#用TF-IDF的方法进行文本特征抽取tfidf_demo()

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/645427.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

民用激光雷达行业简析

01. 激光雷达是“机器之眼” • 激光雷达是一个通过发射激光并接受发射激光同时对其进行信号处理,从而获得周边物体距离等信息的主动测量装置。 • 激光雷达主要由光发射、光扫描、光接收三大模块组成。光发射模块集成了驱动、开关和光源等芯片。光接收模块集成了…

【AIGC】Diffusers:扩散模型的开发手册说明2

前言 扩散器被设计成一个用户友好且灵活的工具箱,用于构建适合您用例的扩散系统。工具箱的核心是模型和调度程序。然而 DiffusionPipeline 为方便起见将这些组件捆绑在一起,但您也可以解包管道并分别使用模型和调度程序来创建新的扩散系统。 解构 Stab…

文件备份管理软件系统

1、我解决的问题 避免因为硬盘故障,导致数据丢失; 避免因为中了病毒,文件被加密,无法取回; 避免了员工恶意删除文件; 规范企业内部的文件管理,使它井井有条; 防范于未然,不必再为可能的风险担忧; 2、我的优点 我支持定…

第二篇【传奇开心果系列】beeware的toga开发移动应用示例:手机应用视频播放器

传奇开心果博文系列 系列博文目录beeware的toga开发移动应用示例系列 博文目录一、项目目标二、编程思路三、初步实现项目目标示例代码四、第一次扩展示例代码五、第二次扩展示例代码六、第三次扩展示例代码七、第四次扩展示例代码八、第五次扩展示例代码九、第六次扩展示例代码…

1.19号网络

超时检测 概念 1> 在网络通信中,有很多函数是阻塞函数,会导致进程的阻塞,例如:accept、recv、recvfrom、等等 2> 为了避免进程在阻塞函数处,无休止的等待,我们可以设置一个超时时间,当…

详细分析MybatisPlus中的Page类(附实战)

目录 前言1. 基本知识2. 常用方法3. 实战 前言 由于工作中经常使用到MybatisPlus的框架,对此详细连接Page类有利于开发,更加游刃有余 对于该类的源码:baomidou / mybatis-plus 中的Page源码 MybatisPlus的框架:MyBatis-plus从入…

【操作系统基础】【CPU访存原理】:寄存 缓存 内存 外存、内存空间分区、虚拟地址转换、虚拟地址的映射

存储器怎么存储数据、内存空间分区、虚拟地址转换 计算机的存储器:寄存 缓存 内存 外存(按功能划分) 计算机的处理器需要一个存储器来存储大量的指令和数据以便自己不断取指执行和访问数据。 内存(内存就是运行内存&#xff0c…

java web 校园健康管理系统Myeclipse开发mysql数据库web结构java编程计算机网页项目

一、源码特点 java Web校园健康管理系统是一套完善的java web信息管理系统 ,对理解JSP java编程开发语言有帮助,系统具有完整的源代码和数据库,系统主要采用B/S模式开发。开发环境为 TOMCAT7.0,Myeclipse8.5开发,数据库为Mysq…

宠物空气净化器怎么挑选?猫用空气净化器品牌性比价推荐

作为一个养猫家庭的主人,每天都要面对一个挑战——清理猫砂盆。那种难以形容的气味实在让人受不了。尤其是家里有小孩和老人,他们偶尔可能会出现过敏性鼻炎等问题,而抵抗力较差的人更容易受到影响。此外,一到换毛季节,…

【基础算法练习】二分模板

文章目录 二分模板题二分的思想C 版本的二分整数二分模板 Golang 版本的二分整数二分模板 例题:在排序数组中查找元素的第一个和最后一个位置题目描述C 版本代码Golang 版本代码 二分模板题 704. 二分查找,这道题目是最经典的二分查找,使用于…

Spring依赖注入之setter注入与构造器注入以及applicationContext.xml配置文件特殊值处理

依赖注入之setter注入 在管理bean对象的组件的时候同时给他赋值,就是setter注入,通过setter注入,可以将某些依赖项标记为可选的,因为它们不是在构造对象时立即需要的。这种方式可以减少构造函数的参数数量,使得类的构…

天津大数据培训班推荐,数据分析过程的常见错误

大数据”是近年来IT行业的热词,目前已经广泛应用在各个行业。大数据,又称海量信息,特点是数据量大、种类多、实时性强、数据蕴藏的价值大。大数据是对大量、动态、能持续的数据,通过运用分析、挖掘和整理,实现数据信息…

生产力工具|卸载并重装Anaconda3

一、Anaconda3卸载 (一)官方方案一(Uninstall-Anaconda3-不能删除配置文件) 官方推荐的方案是两种,一种是直接在Anaconda的安装路径下,双击: (可以在搜索栏或者使用everything里面搜…

Windows10上通过MSYS2编译FFmpeg 6.1.1源码操作步骤

1.从github上clone代码,并切换到n6.1.1版本:clone到D:\DownLoad目录下 git clone https://github.com/FFmpeg/FFmpeg.git git checkout n6.1.1 2.安装MSYS2并编译FFmpeg源码: (1).从https://www.msys2.org/ 下载msys2-x86_64-20240113.exe &#…

超优秀的三维模型轻量化、格式转换、可视化部署平台!

1、基于 HTML5 和 WebGL 技术,可在主流浏览器上进行快速浏览和调试,支持PC端和移动端 2、自主研发 AMRT 展示框架和9大核心技术,支持3D模型全网多端流畅展示与交互 3、提供格式转换、减面展UV、烘焙等多项单模型和倾斜摄影模型轻量化服务 4、…

Java实现对系统CPU、内存占用率的控制

背景:由于使用的业主的云资源,由于使用率低,会不持续的缩减服务器配置。为了避免后续由于新业务上线,需要更多资源的时候,无法再次获得资源(回收容易,申请难)。 问题:怎…

Git学习笔记(第9章):国内代码托管中心Gitee

目录 9.1 简介 9.1.1 Gitee概述 9.1.2 Gitee帐号注册和登录 9.2 VSCode登录Gitee账号 9.3 创建远程库 9.4 本地库推送到远程库(push) 9.5 导入GitHub项目 9.6 删除远程库 9.1 简介 9.1.1 Gitee概述 众所周知,GitHub服务器在国外,使用GitHub作为…

3.1集合-Set+集合-list

一、数据结构 1.1什么是数据结构 数据结构就是用来装数据以及数据与之间关系的一种集合,如何把相关联的数据存储到计算机,为后续的分析提供有效的数据源,是数据结构产生的由来。数据结构就是计算机存储、组织数据的方式。好的数据结构&…

数据结构·单链表

不可否认的是,前几节我们讲解的顺序表存在一下几点问题: 1. 中间、头部的插入和删除,需要移动一整串数据,时间复杂度O(N) 2. 增容需要申请新空间,拷贝数据,释放旧空间。会有不小的消耗 3. 增容一般是2倍的增…

01、领域驱动设计:微服务设计为什么要选择DDD总结

目录 1、前言 2、软件架构模式的演进 3、微服务设计和拆分的困境 4、为什么 DDD适合微服务 5、DDD与微服务的关系 6、总结 1、前言 我们知道,微服务设计过程中往往会面临边界如何划定的问题,不同的人会根据自己对微服务的理 解而拆分出不同的微服…