使用Python的Scikit-Learn进行决策树建模和可视化:以隐形眼镜数据集为例

决策树是一种强大的机器学习算法,它在数据挖掘和模式识别中被广泛应用。决策树模型可以帮助我们理解数据中的模式和规则,并做出预测。在本文中,我们将介绍如何使用Python的Scikit-Learn库构建决策树模型,并使用Graphviz进行可视化。我们将以一个实际的示例数据集(lenses.txt)为基础,来演示整个过程。

**准备工作**

首先,确保你已经安装了Scikit-Learn和Graphviz库。你可以使用以下命令来安装它们:

pip install scikit-learn
pip install graphviz

此外,我们需要一个数据集来演示决策树的建模和可视化。我们将使用一个名为"lenses.txt"的示例数据集,该数据集描述了一组隐形眼镜的特征,并预测了应该使用哪种类型的隐形眼镜。

**数据集介绍**

首先,让我们来了解一下"lenses.txt"数据集。这个数据集包含以下特征列:

1. `age`:患者的年龄。
2. `prescription`:视力矫正处方的类型。
3. `astigmatic`:是否患者患有散光。
4. `tear_rate`:眼泪生产率。

还有一个目标列:

- `class`:决定了应该使用哪种类型的隐形眼镜(硬材质、软材质、不适用)。

**数据预处理**

在开始建模之前,我们需要对数据进行预处理。具体地,我们需要将类别特征转换为数值特征,以便可以用于决策树模型。下面是数据预处理的代码:

import pandas as pd# 读取lenses.txt文件并设置列名
data = pd.read_csv("lenses.txt", sep="\t", header=None)
data.columns = ["age", "prescription", "astigmatic", "tear_rate", "class"]# 将类别特征转换为数值
data = data.apply(lambda x: pd.Categorical(x).codes if x.dtype == "object" else x)# 转换特征列名为字符串
data.columns = data.columns.astype(str)# 分割数据为特征和目标
X = data.drop("class", axis=1)
y = data["class"]

现在,我们已经准备好数据,并将其转换为适合决策树建模的格式。

**构建决策树模型**

接下来,让我们使用Scikit-Learn创建决策树模型。我们将使用`DecisionTreeClassifier`类来构建分类器。

from sklearn.tree import DecisionTreeClassifier# 创建决策树模型
model = DecisionTreeClassifier()

**划分训练集和测试集**

在训练模型之前,我们需要将数据集划分成训练集和测试集。这有助于评估模型的性能。通常,我们将大部分数据用于训练,一小部分用于测试。

from sklearn.model_selection import train_test_split# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

**训练决策树模型**

现在,我们可以使用训练数据来训练决策树模型。

# 训练模型
model.fit(X_train, y_train)

模型已经训练完成,接下来我们将评估它的性能。

**模型评估**

在评估模型之前,让我们使用测试数据来进行预测,并计算模型的准确度。

from sklearn.metrics import accuracy_score# 预测
y_pred = model.predict(X_test)# 计算模型准确度
accuracy = accuracy_score(y_test, y_pred)
print(f"模型准确度: {accuracy}")

模型的准确度告诉我们模型在测试数据上的性能。在这种情况下,我们使用准确度来衡量模型的性能,但根据具体问题,还可以使用其他指标。

**决策树的可视化**

决策树模型是一种非常直观的机器学习模型,我们可以将其可视化以更好地理解其决策过程。为了可视化决策树,我们将使用Graphviz工具。首先,我们需要生成决策树的可视化图形。

from sklearn.tree import export_graphviz
import graphviz# 可视化决策树
dot_data = export_graphviz(model,out_file=None,feature_names=data.columns[:-1],class_names=data["class"].unique().astype(str),filled=True,rounded=True,special_characters=True,
)graph = graphviz.Source(dot_data)

上述代码生成了决策树的可视化图形,其中包含决策树的节点和分支。接下来,我们可以将图形保存为文件或在默认的图形查看器中打开它。

# 将可视化图形保存为文件
graph.render("lenses_decision_tree")# 在默认的图形查看器中打开可视化图形
graph.view()

这样,我们就成功生成了决策树模型的可视化图形。您可以使用默认的PDF查看器打开生成的图形文件,并

深入了解模型的决策过程。

**保存和分享决策树图**

如果您希望分享您生成的决策树图形,您可以将图形文件发送给他人。这使得您可以轻松与团队成员或同事共享模型的可视化结果,以帮助他们理解模型的工作原理。

**总结**

在本文中,我们介绍了如何使用Python的Scikit-Learn库来构建决策树模型,并使用Graphviz进行可视化。我们从数据准备开始,将类别特征转换为数值特征,然后构建、训练和评估决策树模型。最后,我们演示了如何将模型的决策过程可视化,并将结果保存和分享。

决策树是一种强大的机器学习工具,它可以用于分类和回归问题。通过可视化决策树,我们可以更好地理解模型的决策过程,这对于解释模型和与他人共享结果非常有帮助。

这篇文章详细介绍了如何使用Scikit-Learn构建和可视化决策树模型。希望这个指南对您理解决策树算法和其应用有所帮助。祝您在探索机器学习和数据科学的旅程中取得成功!

import pandas as pd
from sklearn.tree import DecisionTreeClassifier, export_graphviz
import graphviz
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score# 读取lenses.txt文件并设置列名
data = pd.read_csv("lenses.txt", sep="\t", header=None)
data.columns = ["age", "prescription", "astigmatic", "tear_rate", "class"]# 将类别特征转换为数值
data = data.apply(lambda x: pd.Categorical(x).codes if x.dtype == "object" else x)# 转换特征列名为字符串
data.columns = data.columns.astype(str)# 分割数据为特征和目标
X = data.drop("class", axis=1)
y = data["class"]# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 创建决策树模型
model = DecisionTreeClassifier()# 训练模型
model.fit(X_train, y_train)# 预测
y_pred = model.predict(X_test)# 计算模型准确度
accuracy = accuracy_score(y_test, y_pred)
print(f"模型准确度: {accuracy}")# 可视化决策树
dot_data = export_graphviz(model,out_file=None,feature_names=data.columns[:-1],class_names=data["class"].unique().astype(str),filled=True,rounded=True,special_characters=True,
)graph = graphviz.Source(dot_data)
graph.render("lenses_decision_tree")  # 将可视化图形保存为文件
graph.view()  # 在默认的图形查看器中打开可视化图形

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/126139.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

HTTP和HTTPS本质区别——SSL证书

HTTP和HTTPS是两种广泛使用的协议,尽管它们看起来很相似,但是它们在网站数据传输的安全性上有着本质上的区别。 HTTP是明文传输协议,意味着通过HTTP发送的数据是未经加密的,容易受到拦截、窃听和篡改的风险。而HTTPS通过使用SSL或…

外汇天眼:10月客诉前十榜单出炉,差评不断所谓何因?

纵观整个10月的天眼客诉排行榜,可以发现此次名单基本上都是无监管、成立时间短的“新”外汇平台,其中无法出金依旧仍是客诉的关键来源! 接下来,就跟着天眼君一起来看看是哪些“新”平台上榜天眼客诉榜! 具体客诉排行榜…

批量修改文件名称(现学现卖版)

目录 一、复制所有文件路径二、批量修改 一、复制所有文件路径 ctrlA选中所有文件&#xff0c;点击主页&#xff0c;复制路径 粘贴到excal表格中 添加新文件名 组合命令&#xff0c;插入函数CONCATENATE ren空格<旧文件名>空格<新文件名><后缀名> …

java如何获取调用接口的ip?

获取调用者的ip 场景&#xff1a;想知道哪个ip访问的某个接口时&#xff0c;就需要打印出来看看&#xff0c;这时就可以使用这个方法了。 案例&#xff1a; //HttpServletRequest 入参加上,请求对象public ForkResponse queryXXX(RequestBody XXXX xxxx, HttpServletRequest …

docker离线部署

docker离线部署 1、目的 在可以连接互联网的情况下&#xff0c;可以在线安装Docker《Linux下Docker安装部署》&#xff0c;如果遇到内网服务器就没有办法进行在线安装&#xff0c;那么需要使用离线安装的方法。 2、下载安装包 创建工作文件夹&#xff1a; mkdir /opt/dock…

IDEA连接数据库之后没有显示数据库里面的表

IDEA连接数据库之后没有显示数据库里面的表 第一步&#xff1a;点击下面红框处 第二步&#xff1a;点击Schemas那里 第三步&#xff1a;选择自己当前数据库的名称 最后回到database页面查看&#xff0c;相关数据可显示 如图&#xff1a;

【机器学习】朴素贝叶斯算法基本原理与计算案例

朴素贝叶斯算法基本原理与计算案例 文章目录 朴素贝叶斯算法基本原理与计算案例1. 朴素贝叶斯算法的基本原理2. 概率基础3. 朴素贝叶斯简单计算案例4. 朴素贝叶斯算法对文本进行分类5. 拉普拉斯平滑系数6. 案例&#xff1a;20类新闻分类7. 总结 1. 朴素贝叶斯算法的基本原理 朴…

笔记软件推荐!亲测好用的8款笔记软件!

​在以往的生活中&#xff0c;我们都需要用纸和笔做笔记&#xff0c;但随着时代的发展&#xff0c;许多人已经不再选择用这种传统方式&#xff0c;来记录自己重要的笔记了&#xff0c;他们都选择将重要的笔记用软件记录下来&#xff0c;将笔记保存在电脑里&#xff0c;更不容易…

下载的nginx证书转换成tomcat证书格式

1、下载的nginx证书格式 XXX.crt private.key 2、转换成JKS格式证书步骤 #crt格式证书转pem openssl x509 -in xxx.crt -out xxx.pem#先转成p12格式&#xff0c;此时注意&#xff0c;如果有别名&#xff0c;需要设置 openssl pkcs12 -export -in xxx.crt -inkey private.key…

第45天:标签的分类和重要属性及常用标签、css介绍及选择器

标签 标签的分类 按结构分&#xff0c;html标签可以分为单标签和双标签。 单标签 由一个标签组成。例如&#xff1a; <br/> <hr/> <img/> 双标签 由开始标签和结束标签两部分构成&#xff0c;例如&#xff1a; <a></a> <h></h> &l…

uniapp-自定义表格,右边操作栏固定

uniapp-自定义表格&#xff0c;右边操作栏固定 在网上找了一些&#xff0c;没找到特别合适的&#xff0c;收集了一下其他人的思路&#xff0c;基本都是让左边可以滚动&#xff0c;右边定位&#xff0c;自己也尝试写了一下&#xff0c;有点样式上的小bug&#xff0c;还在尝试修…

[论文笔记]E5

引言 今天又带来一篇文本匹配/文本嵌入的笔记:Text Embeddings by Weakly-Supervised Contrastive Pre-training。中文题目是 基于弱监督对比预训练计算文本嵌入。 本篇工作提出了E5模型(EmbEddings from bidirEctional Encoder rEpresentations)。该模型以带弱监督信号的对…

Zookeeper 集群搭建

Zookeeper Zookeeper是一个开源的分布式的&#xff0c;为分布式框架提供协调服务的Apache项目 Zookeeper 工作机制 Zookeeper从设计模式角度来理解&#xff1a;是一个基于观察者模式设计的分布式服务管理框架 一旦这些数据的状态发生变化&#xff0c;Zookeeper就将负责通知…

微信小程序 跳转客服页面

前言 小程序 用户反馈 没有页面设计 可以直接跳转小程序指定客服页面 <button class"contactBtn"open-type"contact" contact"handleContact" session-from"sessionFrom">

【Tomcat】如何在idea上部署一个maven项目?

目录 1.创建项目 2.引入依赖 3.创建目录 4.编写代码 5.打包程序 6.部署项目 7.验证程序 什么是Tomcat和Servlet? 以idea2019为例&#xff1a; 1.创建项目 1.1 首先创建maven项目 1.2 项目名称 2.引入依赖 2.1 网址输入mvnrepository.com进入maven中央仓库->地址…

【Docker】一些可以直接用的Docker环境

这里罗列一些打包的镜像&#xff0c;方便直接使用。 cu11.6ubuntu18.04 docker push kevinchina/deeplearning:cu11.6ubuntu18.04 FROM nvidia/cuda:11.6.2-cudnn8-devel-ubuntu18.04 RUN apt-get update && apt-get install -y wget git vim curl RUN wget http://…

MyBatis实验(四)——关联查询

前言 多表关联查询是软件开发中最常见的应用场景&#xff0c;多表查询需要将数据实体之间的一对多、多对多、一对一的关系的转换为复杂的数据对象。mybaits提供的association和collection元素&#xff0c;通过映射文件构造复杂实体对象&#xff0c;在构造实体过程中&#xff0…

Qt:删除QWidget中的所有布局和组件

技术要点&#xff1a; 1、调用QWidget::layout()可获取组件的布局&#xff1b; 2、QLayout::count() 可获取布局内的子项数量&#xff0c;包括子布局和子组件&#xff1b; 3、QLayout::itemAt(int index) 可根据索引获取相应的子项&#xff1b; 4、QLayout::removeWidget(Q…

手机通讯类、ip查询、智能核验、生活常用API接口推荐

手机通讯类 手机号码归属地&#xff1a;提供三大运营商的手机号码归属地查询。 空号检测&#xff1a;通过手机号码查询其在网活跃度&#xff0c;返回包括空号、停机等状态。 手机在网状态&#xff1a;支持传入三大运营商的号码&#xff0c;查询手机号在网状态&#xff0c;返…

linux mysql 创建数据库并配置用户远程管理

要在Linux上创建MySQL数据库并配置用户以实现远程管理&#xff0c;您可以执行以下步骤&#xff1a; 1. 登录到MySQL服务器&#xff1a; 在您的Linux终端中&#xff0c;使用以下命令登录到MySQL服务器。您需要提供MySQL服务器的用户名和密码。 mysql -u root -p 输入密码后&a…