机器学习实验------Python机器学习软件包Scikit-Learn的学习与运用

第1关:使用scikit-learn导入数据集

本关任务

本关任务是使用scikit-learn的datasets模块导入iris数据集,并打印前5条原数据、前5条数据标签及原数据的数组大小。
即编程实现step1/importData.py 的getIrisData()函数:

from sklearn import datasets
def getIrisData():'''导入Iris数据集返回值:X - 前5条训练特征数据y - 前5条训练数据类别X_shape - 训练特征数据的二维数组大小'''#初始化X = [] y = [] X_shape = () #   请在此添加实现代码   ##********** Begin *********#digits=datasets.load_iris()X=digits.data[:5]y=digits.target[:5]X_shape=digits.data.shape#********** End **********#return X,y,X_shape

第2关:数据预处理 — 标准化

本关任务

在前一关卡,我们已经学会了使用sklearn导入数据,然而原始数据总是比较杂乱、不规整的,直接加载至模型中训练会影响预测效果。本关卡,将学会使用sklearn对导入的数据进行预处理。

from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import scale
from sklearn.preprocessing import StandardScalerfrom sklearn.datasets import fetch_california_housing'''
Data descrption:
The data contains 20,640 observations on 9 variables.This dataset contains the average house value as target variable
and the following input variables (features): average income,
housing average age, average rooms, average bedrooms, population,
average occupation, latitude, and longitude in that order.dataset : dict-like object with the following attributes:dataset.data : ndarray, shape [20640, 8]Each row corresponding to the 8 feature values in order.dataset.target : numpy array of shape (20640,)Each value corresponds to the average house value in units of 100,000.dataset.feature_names : array of length 8Array of ordered feature names used in the dataset.dataset.DESCR : stringDescription of the California housing dataset.'''
dataset = fetch_california_housing("./step4/")
X_full, y = dataset.data, dataset.target#抽取其中两个特征数据
X = X_full[:, [0, 5]]def getMinMaxScalerValue():'''对特征数据X进行MinMaxScaler标准化转换,并返回转换后的数据前5条返回值:X_first5 - 数据列表'''X_first5 = []#   请在此添加实现代码   ## ********** Begin *********#X_first5 =MinMaxScaler().fit_transform(X)X_first5=X_first5[:5]# ********** End **********#return X_first5def getScaleValue():'''对目标数据y进行简单scale标准化转换,并返回转换后的数据前5条返回值:y_first5 - 数据列表'''y_first5 = []#   请在此添加实现代码   ## ********** Begin *********#y_first5 =scale(y) y_first5 = y_first5[:5]# ********** End **********#return y_first5def getStandardScalerValue():'''对特征数据X进行StandardScaler标准化转换,并返回转换后的数据均值和缩放比例返回值:X_mean - 均值X_scale - 缩放比例值'''X_mean = NoneX_scale = None#   请在此添加实现代码   ##********** Begin *********#scale=StandardScaler().fit(X)X_mean=scale.mean_X_scale=scale.scale_#********** End **********#return X_mean,X_scale

第3关:文本数据特征提取

本关任务

在前一关卡,我们已经学会了数据集标准化处理,标准化一般主要针对数值型数据。对于文本数据,我们无法直接将原始文本作为训练数据,需通过特征提取将其转化为特征向量。本关卡,将学习提取文本数据特征的基本操作。

from sklearn.datasets import fetch_20newsgroups
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizercategories = ['alt.atheism','talk.religion.misc',
]# 加载对应目录的新闻数据,包含857 个文档
data = fetch_20newsgroups("./step5/",subset='train', categories=categories)
X = data.datadef transfer2CountVector():'''使用CountVectorizer方法提取特征向量,返回词汇表大小和前五条特征向量返回值:vocab_len - 标量,词汇表大小tokenizer_list - 数组,对测试字符串test_str进行分词后的结果'''vocab_len = 0test_str = "what's your favorite programming language?"tokenizer_list = []#   请在此添加实现代码   ## ********** Begin *********#vectorizer = CountVectorizer()vectorizer.fit(X)vocab_len = len(vectorizer.vocabulary_)analyze = vectorizer.build_analyzer()tokenizer_list = analyze(test_str)# ********** End **********#return vocab_len,tokenizer_listdef transfer2TfidfVector():'''使用TfidfVectorizer方法提取特征向量,并将向量化转换器应用到新的测试数据TfidfVectorizer()方法的参数设置:min_df = 2,stop_words="english"test_data - 需要转换的原数据返回值:transfer_test_data - 二维数组ndarray'''test_data = ['Once again, to not believe in God is different than saying\n>I BELIEVE that God does not exist. I still maintain the position, even\n>after reading the FAQs, that strong atheism requires faith.\n>\n \nNo it in the way it is usually used. In my view, you are saying here that\ndriving a car requires faith that the car drives.\n \nFor me it is a conclusion, and I have no more faith in it than I have in the\npremises and the argument used.\n \n \n>But first let me say the following.\n>We might have a language problem here - in regards to "faith" and\n>"existence". I, as a Christian, maintain that God does not exist.\n>To exist means to have being in space and time. God does not HAVE\n>being - God IS Being. Kierkegaard once said that God does not\n>exist, He is eternal. With this said, I feel it\'s rather pointless\n>to debate the so called "existence" of God - and that is not what\n>I\'m doing here. I believe that God is the source and ground of\n>being. When you say that "god does not exist", I also accept this\n>statement - but we obviously mean two different things by it. However,\n>in what follows I will use the phrase "the existence of God" in it\'s\n>\'usual sense\' - and this is the sense that I think you are using it.\n>I would like a clarification upon what you mean by "the existence of\n>God".\n>\n \nNo, that\'s a word game. The term god is used in a different way usually.\nWhen you use a different definition it is your thing, but until it is\ncommonly accepted you would have to say the way I define god is ... and\nthat does not exist, it is existence itself, so I say it does not exist.\n \nInterestingly, there are those who say that "existence exists" is one of\nthe indubitable statements possible.\n \nFurther, saying god is existence is either a waste of time, existence is\nalready used and there is no need to replace it by god, or you are implying\nmore with it, in which case your definition and your argument so far\nare incomplete, making it a fallacy.\n \n \n(Deletion)\n>One can never prove that God does or does not exist. When you say\n>that you believe God does not exist, and that this is an opinion\n>"based upon observation", I will have to ask "what observtions are\n>you refering to?" There are NO observations - pro or con - that\n>are valid here in establishing a POSITIVE belief.\n(Deletion)\n \nWhere does that follow? Aren\'t observations based on the assumption\nthat something exists?\n \nAnd wouldn\'t you say there is a level of definition that the assumption\n"god is" is meaningful. If not, I would reject that concept anyway.\n \nSo, where is your evidence for that "god is" is meaningful at some level?\n   Benedikt\n']transfer_test_data = None#   请在此添加实现代码   ## ********** Begin *********#tfidf_vertor = TfidfVectorizer(min_df=2, stop_words="english")tfidf_vertor.fit(X)transfer_test_data = tfidf_vertor.transform(test_data).toarray()# ********** End **********#return transfer_test_data

第4关:使用scikit-learn分类器SVM对digits数据分类

本关任务

本关要求采用scikit-learn中的svm模型训练一个对digits数据集进行分类的模型。训练集是digits数据集的前半部分数据,测试集是digits数据集的后半部分数据。

import matplotlib.pyplot as plt# 导入数据集,分类器相关包
from sklearn import datasets, svm, metrics# 导入digits数据集
digits = datasets.load_digits()
n_samples = len(digits.data)
data = digits.data# 使用前一半的数据集作为训练数据,后一半数据集作为测试数据
train_data,train_target = data[:n_samples // 2],digits.target[:n_samples // 2]
test_data,test_target = data[n_samples // 2:],digits.target[n_samples // 2:]def createModelandPredict():'''创建分类模型并对测试数据预测返回值:predicted - 测试数据预测分类值'''predicted = None#   请在此添加实现代码   ##********** Begin *********#classifier = svm.SVC()classifier.fit(train_data,train_target)predicted = classifier.predict(test_data)#********** End **********#return predicted

第5关:模型持久化

本关必读

当数据量很大的时候,训练一个模型需要消耗很大的时间成本,每次都重新训练模型预测是非常冗余且没有必要的,我们可以将训练模型存储下来,每当要预测新数据的时候只需加载该模型。
训练模型的持久化需要调用python的内建模块pickle,pickle可以用来将python对象转化为字节流存储至磁盘,也可以逆向操作将磁盘上的字节流恢复为python对象。

# 导入数据集,分类器相关包
from sklearn import datasets, svm, metrics
import pickle# 导入digits数据集
digits = datasets.load_digits()
n_samples = len(digits.data)
data = digits.data# 使用前一半的数据集作为训练数据,后一半数据集作为测试数据
train_data,train_target = data[:n_samples // 2],digits.target[:n_samples // 2]
test_data,test_target = data[n_samples // 2:],digits.target[n_samples // 2:]def createModel():classifier = svm.SVC()classifier.fit(train_data,train_target)return classifierlocal_file = 'dumpfile'
def dumpModel():'''存储分类模型'''clf = createModel()#   请在此添加实现代码   ##********** Begin *********#f_model = open(local_file, 'wb')pickle.dump(clf, f_model)#********** End **********#def loadModel():'''加载模型,并使用模型对测试数据进行预测,返回预测值返回值:predicted - 模型预测值'''predicted = None#   请在此添加实现代码   ##********** Begin *********#fw = open(local_file, 'rb')classifier = pickle.loads(fw.read())predicted = classifier.predict(test_data)#********** End **********#return predicted

第6关:模型评估-量化预测效果

本关任务

在前面的关卡,我们已经学会了如果使用sklearn训练分类模型,那如何评估模型的分类效果?本关卡将学会使用sklearn的模型度量方法,来量化预测结果。

from sklearn.metrics import accuracy_score,precision_score,f1_score,precision_recall_fscore_support
from sklearn.svm import LinearSVC,SVCdef bin_evaluation(X_train, y_train, X_test, y_test):'''评估二分类模型:param X_train: 训练数据集:param y_train: 训练集类别:param X_test: 测试数据集:param y_test: 测试集实际类别:return:correct_num - 正确分类的样本个数prec - 正类的准确率recall - 正类的召回率f_score - 正类的f值'''classifier = LinearSVC()correct_num, prec, recall, fscore = None, None, None, None#   请在此添加实现代码   ## ********** Begin *********#classifier.fit(X_train, y_train)y_pred = classifier.predict(X_test)correct_num = accuracy_score(y_test, y_pred, normalize=False)prec, recall, fscore, support = precision_recall_fscore_support(y_test, y_pred, average="binary", pos_label=1)return correct_num, prec, recall, fscore# ********** End **********#def multi_evaluation(X_train,y_train,X_test,y_test):'''评估多分类模型:param X_train: 训练数据集:param y_train: 训练集类别:param X_test: 测试数据集:param y_test: 测试集实际类别:return:acc - 模型的精度prec - 准确率f_score - f值'''#初始化acc,prec,f_score = None,None,Noneclassifier = SVC(kernel='linear')#   请在此添加实现代码   ## ********** Begin *********#classifier.fit(X_train, y_train)y_pred = classifier.predict(X_test)acc = accuracy_score(y_test, y_pred)prec, zhaohui, f_score, sp_score = precision_recall_fscore_support(y_test, y_pred, average='macro')return acc,prec,f_score# ********** End **********#

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/742867.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

低代码开发平台,快速搭建开源MES系统

MS低代码云MES作为一家专注于提供生产制造数字化方案的服务商,“以客户为中心”、以“数据驱动、智能化、互联化”为企业的核心标签,以低代码平台为切入点,帮助企业构建以人为本的未来供应链生态系统,实现制造企业的智能化转型。 …

深度复制:C# 中 List 与 List 多层嵌套不改变原值的实现方法

概述:以上内容详细介绍了在 C# 中实现不改变原 List 值的多层嵌套复制方法,包括使用 AutoMapper、Json.NET、以及对象序列化的步骤和示例。这些方法提供了灵活而高效的方式,可以根据项目需求选择最适合的深度复制方式。 1. 使用 AutoMapper …

Vulnhub - Toppo

希望和各位大佬一起学习,如果文章内容有错请多多指正,谢谢! 个人博客链接:CH4SER的个人BLOG – Welcome To Ch4sers Blog Toppo 靶机下载地址:Toppo: 1 ~ VulnHub 0x01 信息收集 Nmap扫描目标主机,发…

Component和Loader在QML中是紧密相关的两个元素,它们常常一起使用来实现动态加载和实例化QML组件的功能

Component 是一个可重用的QML组件定义,它描述了一个独立的UI元素及其行为。可以将Component看作是一个模板或蓝图,用于创建多个相同类型的QML对象实例。 Loader 是一个特殊的QML元素,用于动态加载和实例化QML组件。它允许您根据需要在运行时…

关于分布式微服务数据源加密配置以及取巧方案(含自定义加密配置)

文章目录 前言Spring Cloud 第一代1、创建config server项目并加入加解密key2、启动项目,进行数据加密3、实际项目中的测试server Spring Cloud Alibaba低版本架构不支持,取巧实现无加密配置,联调环境问题加密数据源配置原理探究自定义加密解…

ubuntu 20.04 Python pip 配置 pip.conf

1. 状况描述 $ pip install timm WARNING: Retrying (Retry(total4, connectNone, readNone, redirectNone, statusNone)) after connection broken by ProxyError(Cannot connect to proxy., RemoteDisconnected(Remote end closed connection without response)): /simple/t…

ubuntu22.04环境中安装pylint

ubuntu22.04环境中安装pylint sudo apt-get install python3-pipsudo aptitude install python3-pipsudo pip install pylint sudo apt-get install python3-pip 在安装pylint的时候,需要使用pip命令,在ubuntu22.04环境中命令如下: $ sudo …

[LeetCode][110]平衡二叉树

题目 110.平衡二叉树 给定一个二叉树,判断它是否是平衡二叉树。 示例 1: 输入:root [3,9,20,null,null,15,7] 输出:true 示例 2: 输入:root [1,2,2,3,3,null,null,4,4] 输出:false 示例 3&…

Linux:1_常见指令以及权限理解(上)

常见指令以及权限理解 一.补充知识 为方便初学者更好的理解Linux系统,这部分将对比windows系统补充一部分必要知识1 2 3 4 5 6 二.补充指令 1. 重新认识指令: 指令本质都是程序 —指令、程序、可执行程序都是一回事(都是文件内容属性)指令就是程序 … 安装和卸载是在把可…

安卓Java面试题 101- 110

101. Android中touch事件的传递机制是怎样的?1.Touch事件传递的相关API有dispatchTouchEvent、onTouchEvent、onInterceptTouchEvent 2.Touch事件相关的类有View、ViewGroup、Activity 3.Touch事件会被封装成MotionEvent对象,该对象封装了手势按下、移动、松开等动作 4.Touch…

分布式搜索引擎elasticsearch(2)

1.DSL查询文档 elasticsearch的查询依然是基于JSON风格的DSL来实现的。 1.1.DSL查询分类 Elasticsearch提供了基于JSON的DSL([Domain Specific Language](https://www.elastic.co/guide/en/elasticsearch/reference/current/query-dsl.html))来定义查…

(一)RabbitMQ实战——rabbitmq的核心组件及其工作原理介绍

前言 RabbitMQ是一个开源的消息代理软件,它实现了高级消息队列协议(AMQP)标准,提供可靠的消息传递机制。RabbitMQ可以用于在应用程序之间传递消息,实现不同应用系统之间的解耦和通信。它支持多种编程语言,…

什么是Ribbon,怎么实现负载均衡?

一. Ribbon 是 Netflix 公司开发的一个负载均衡器(Load Balancer)工具,主要用于在分布式系统中进行客户端侧的负载均衡。它可以集成到微服务架构中的客户端,通过在客户端实现负载均衡算法,来分发请求到多个服务提供者…

彩虹知识付费模板MangoA全开源包含秒杀/抽奖/社群/推送等功能

二次开发增加以下功能每日秒杀每日签到官方社群多级分销在线抽奖项目投稿 每日秒杀 每日签到 官方社群 多级分销 在线抽奖 项目投稿 下载地址:https://pan.xunlei.com/s/VNstMfOecGliiqew7UIorsOnA1?pwdhywi#

<支持向量机算法(SVM:Support Vector Machine)>——《机器学习算法初识》

目录 一、⽀持向量机(SVM)算法 1 SVM算法导⼊ 2 SVM算法定义 2.1 定义 2.2 超平⾯最⼤间隔介绍 2.3 硬间隔和软间隔 2.3.1 硬间隔分类 2.3.2 软间隔分类 3 ⼩结 二、 SVM算法api初步使⽤ 三、 SVM算法原理 1 定义输⼊数据 2 线性可分⽀持向量机 3 SVM的计算过程与算…

Rust 构建开源 Pingora 框架可以与nginx媲美

一、概述 Cloudflare 为何弃用 Nginx,选择使用 Rust 重新构建新的代理 Pingora 框架。Cloudflare 成立于2010年,是一家领先的云服务提供商,专注于内容分发网络(CDN)和分布式域名解析。它提供一系列安全和性能优化服务…

亚马逊云科技 Lambda 运行selenium

有些定时任务需要使用自动化测试的工具,如果使用亚马逊云科技 Lambda来实现这个功能的话,那么就需要图形框架,而我们知道lambda其实是一个虚拟机,而且按照系统级别依赖比较困难。所以这里选择使用容器的形式进行发布。 在dockerf…

【原创】[新增]ARCGIS之土地报备Txt、征地Xls格式批量导出Por旗舰版

一、软件简介 2024年新增旗舰版软件,本软件全新界面开发,保留原有软件功能及一些使用习惯,并集成了现已有的所有定制格式的支持,并增加自定义格式的导出;做到1N2(即为1种通用版本N种定制格式导出txt、Xls&a…

机器学习模型—分类回归树(CART)

机器学习模型—分类回归树(CART) **CART(分类和回归树)**是决策树算法的一种变体。它可以处理分类和回归任务。Scikit-Learn使用分类和回归树 (CART) 算法来训练 决策树。CART 最初由 Leo Breiman、Jerome Friedman、Richard Olshen 和 Charles Stone 于 1984 年制作。 CAR…

c++的STL(4)-- list容器

list容器概述 list的容器的实现是使用双向链表的形式的数据结构实现的。(也有的编译器使用双向循环链表) 链表是一种数据结构,这种结构与数组的结构不同,链表的每个节点都存放有特定个数的指针(双向链表:两个(一个指向前面的元素,另一个指向…