手把手教你模型选择,模型评估

数据来源是:头条新闻数据,经过处理之后的部分数据如下:
在这里插入图片描述
首先通过交叉验证,取选择模型:

from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import LinearSVCfrom sklearn.model_selection import cross_val_score
models = [RandomForestClassifier(n_estimators=200,max_depth = 3,random_state = 0),LinearSVC(),MultinomialNB(),LogisticRegression(random_state=0),]
cv = 5
cv_df = pd.DataFrame(index = range(cv*len(models)))entries = []for model in models:model_name = model.__class__.__name__accuracies = cross_val_score(model,features,labels,scoring = 'accuracy',cv = cv)for fold_idx,accuracy in enumerate(accuracies):print(model_name,fold_idx,accuracy)entries.append((model_name,fold_idx,accuracy))
print(entries[:10])#entries加入的是元组
cv_df = pd.DataFrame(entries,columns = ['model_name','fold_idx','accuracy'])

也可以将结果可视化展示:

import seaborn as sns
sns.boxplot(x='model_name',y='accuracy',data = cv_df)
sns.stripplot(x='model_name',y='accuracy',data = cv_df,size =8, jitter = True,edgecolor = 'gray',linewidth =2)
plt.show()

在这里插入图片描述
在这里插入图片描述

通过混淆矩阵去查看各个分类的结果

from sklearn.metrics import confusion_matrixconf_mat = confusion_matrix(y_test,y_pred)fig,ax = plt.subplots(figsize=(10,10))
sns.heatmap(conf_mat,annot = True,fmt = 'd',xticklabels =category_id_df.label_content.values,yticklabels = category_id_df.label_content.values)plt.ylabel('Actual' )plt.xlabel('Predicted')plt.show()

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478007.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LeetCode 1030. 距离顺序排列矩阵单元格(排序Lambda表达式BFS)

文章目录1. 题目2. 解题2.1 multimap2.2 Lambda 表达式排序2.3 BFS搜索1. 题目 给出 R 行 C 列的矩阵&#xff0c;其中的单元格的整数坐标为 (r, c)&#xff0c;满足 0 < r < R 且 0 < c < C。 另外&#xff0c;我们在该矩阵中给出了一个坐标为 (r0, c0) 的单元格…

干货 | 带你理解对比学习损失函数的性质以及温度系数的作用

文 | Feng源 | 对白的算法屋很多小伙伴都了解对比学习&#xff0c;但要说温度系数的作用可能就不太清楚了。卷友们好&#xff0c;我是对白。对比学习中的温度系数是一个神秘的参数&#xff0c;大部分论文都默认采用小的温度系数来进行自监督对比学习&#xff08;例如0.07&#…

论文浅尝 | Data Intelligence第4期正式上线啦

本文转载自公众号&#xff1a;数据智能英文刊各位关注DI期刊的专家学者和业界同仁&#xff1a;Data Intelligence第4期正式上线啦&#xff01;本期共出版2篇研究性论文&#xff0c;5篇数据论文&#xff0c;1篇实践类论文。点击每篇文章标题下方的二维码可直达论文全文页面。敬请…

细说ReactiveCocoa的冷信号与热信号(三):怎么处理冷信号与热信号

第一篇文章中我们介绍了冷信号与热信号的概念&#xff0c;前一篇文章我们也讨论了为什么要区分冷信号与热信号&#xff0c;下面我会先为大家揭晓热信号的本质&#xff0c;再给出冷信号转换成热信号的方法。 揭示热信号的本质 在ReactiveCocoa中&#xff0c;究竟什么才是热信号呢…

LeetCode 1260. 二维网格迁移(二维转一维)

1. 题目 给你一个 n 行 m 列的二维网格 grid 和一个整数 k。你需要将 grid 迁移 k 次。 每次「迁移」操作将会引发下述活动&#xff1a; 位于 grid[i][j] 的元素将会移动到 grid[i][j 1]。 位于 grid[i][m - 1] 的元素将会移动到 grid[i 1][0]。 位于 grid[n - 1][m - 1] …

困惑度、主题一致性,lda模型找出主题相关词

困惑度perplexity&#xff1a;句子的概率的倒数。如果句子的概率越大&#xff0c;说明这句话越符合人话的规律&#xff0c;即p&#xff08;句子&#xff09;&#xff0c;pp困惑度越小。模型对该句子就越不困惑。 通俗一点解释下就是&#xff0c;困惑度表示的对于一篇文章来说…

patch成为了ALL You Need?挑战ViT、MLP-Mixer的简单模型来了

文 | 机器之心编辑部源 | 机器之心ViT&#xff08;Vision Transformer&#xff09;等视觉模型的强大性能&#xff0c;是来自于 Transformer&#xff0c;还是被忽略的 patch&#xff1f;有研究者提出了简单 ConvMixer 模型进行证明&#xff0c;直接将 patch 作为输入&#xff0c…

OpenKG开源系列 | 轻量级知识图谱抽取开源工具OpenUE

OpenKG地址&#xff1a;http://openkg.cn/tool/openueGitHub地址&#xff1a;https://github.com/openkg-org/openueGitee地址&#xff1a;https://gitee.com/openkg/openueOpenUE网站&#xff1a;http://openue.openkg.cn论文地址&#xff1a;https://aclanthology.org/2020.e…

通俗理解kaggle比赛大杀器xgboost

原文链接 通俗理解kaggle比赛大杀器xgboost 说明&#xff1a;若出现部分图片无法正常显示而影响阅读&#xff0c;请以此处的文章为准&#xff1a;xgboost 题库版。 时间&#xff1a;二零一九年三月二十五日。 0 前言 xgboost一直在竞赛江湖里被传为神器&#xff0c;比如时不时某…

LeetCode 690. 员工的重要性(图的DFSBFS)

文章目录1. 题目2. 解题2.1 DFS2.2 BFS1. 题目 给定一个保存员工信息的数据结构&#xff0c;它包含了员工唯一的id&#xff0c;重要度 和 直系下属的id。 比如&#xff0c;员工1是员工2的领导&#xff0c;员工2是员工3的领导。他们相应的重要度为15, 10, 5。那么员工1的数据结…

论文浅尝 | LGESQL: 结合线性有向图以及普通有向图的自然语言转换SQL语句模型...

LGESQL: Line Graph Enhanced Text-to-SQL Model with Mixed Local and Non-Local Relations笔记整理&#xff1a;郭心南来源&#xff1a;ACL2021链接&#xff1a;https://arxiv.org/abs/2106.01093Github地址&#xff1a;https://github.com/rhythmcao/text2sql-lgesql概述本文…

召回粗排精排-级联漏斗(上)

文 | 水哥源 | 知乎saying1. 把点击多的item曝光提升是推荐模型的基本能力&#xff0c;也是基本要求。后验不好的曝光提高也可能是好模型&#xff0c;后验好的曝光不提高&#xff0c;可以开除推荐模型了2. 在起量阶段&#xff0c;各路item需要争宠&#xff0c;谁能最快博取精排…

美团Android资源混淆保护实践

前言 Android应用中的APK安全性一直遭人诟病&#xff0c;市面上充斥着各种被破解或者汉化的应用&#xff0c;破解者可以非常简单的通过破解工具就能对一个APK进行反编译、破解、汉化等等&#xff0c;这样就可以修改原有代码的逻辑、添加新代码、添加或修改资源、或者更有甚者植…

搞不懂,为啥现在什么公司都在考算法???

昨天在知乎上刷到一个热门问题:程序员需要达到什么水平才能顺利拿到 20k 无压力&#xff1f;其中一个最热门的回答是&#xff1a;“其实&#xff0c;无论你是前端还是后端、想进大厂还是拿高薪&#xff0c;算法都一定很重要。”为什么&#xff0c;算法会如此重要&#xff1f;不…

OpenKG开源系列 | 中文高中地理知识图谱CKGG(南京大学)

OpenKG地址&#xff1a;http://openkg.cn/dataset/ckggGitHub地址&#xff1a;https://github.com/nju-websoft/CKGG数据地址&#xff1a;https://doi.org/10.5281/zenodo.4668711论文地址&#xff1a;https://doi.org/10.1007/978-3-030-88361-4_25开放许可协议&#xff1a;CC…

LeetCode 892. 三维形体的表面积(数学)

1. 题目 在 N * N 的网格上&#xff0c;我们放置一些 1 * 1 * 1 的立方体。 每个值 v grid[i][j] 表示 v 个正方体叠放在对应单元格 (i, j) 上。 请你返回最终形体的表面积。 示例 1&#xff1a; 输入&#xff1a;[[2]] 输出&#xff1a;10示例 2&#xff1a; 输入&#x…

淘宝数据,数据处理,时间序列分析,获客分析,购买路径分析

-- 创建数据库 create database taobao; use taobao; desc use_behaviour;-- 创建表格 create table use_behaviour( user_id int(9), item_id int(9), category_id int(9), behaviour_type varchar(5), timestamps int(14));-- 查询已导入多少条 select count(*) from use_…

谁说发 paper 一定要追快打新?2021年,研究 word2vec 也能中顶会!

文 | jxyxiangyu前言“小夕&#xff0c;小夕&#xff0c;你关注的任务sota又被刷新了&#xff01;”“什么&#xff1f;&#xff01;”还在跑实验的小夕默默流下了辛酸泪不得不说nlp领域的发展真的太快了&#xff0c;炼丹师们不光要时刻关注前沿热点&#xff0c;还要快速做出实…

论文浅尝 | Multilingual LAMA: 探索多语言预训练语言模型中的知识

笔记整理&#xff1a;谭亦鸣&#xff0c;东南大学博士生来源&#xff1a;EACL‘21链接&#xff1a;https://aclanthology.org/2021.eacl-main.284.pdf概述本文关注将语言模型&#xff08;LM&#xff09;视作一个知识库&#xff0c;然后用于解决例如句子填空这样的NLP任务&#…

LeetCode 860. 柠檬水找零(贪心)

1. 题目 在柠檬水摊上&#xff0c;每一杯柠檬水的售价为 5 美元。 顾客排队购买你的产品&#xff0c;&#xff08;按账单 bills 支付的顺序&#xff09;一次购买一杯。 每位顾客只买一杯柠檬水&#xff0c;然后向你付 5 美元、10 美元或 20 美元。你必须给每个顾客正确找零&…