SMS垃圾短信集F1指标分析

一、任务

SMS垃圾短信集是一组为研究SMS垃圾短信而收集数据集合,每条短信有两个信息,分别是标签信息label,其中spam为垃圾短信,ham为正常短信。以及message信息为短信内容。现在有训练集,训练集保存在E:\自然语言处理\train.csv和测试集,测试集保存在E:\自然语言处理\test.csv。现在综合利用所学的文本预处理、特征提取、文本向量化等技术对其进行分析。建立机器学习模型,计算测试集上的F1指标,希望F1指标达到非常好的效果。

二、代码

使用SVC机器学习模型,Tfidf特征处理。

import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.metrics import f1_score
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import LabelEncoder
import re
import string# 1. 数据加载与预处理
train_data = pd.read_csv("E:\\自然语言处理\\train.csv")
test_data = pd.read_csv("E:\\自然语言处理\\test.csv")# 定义文本预处理函数
def preprocess_text(text):# 将文本转换为小写text = text.lower()# 去除标点符号text = text.translate(str.maketrans('', '', string.punctuation))# 去除数字text = re.sub(r'\d+', '', text)# 返回处理后的文本return text# 对训练集和测试集的文本进行预处理
train_data['message'] = train_data['message'].apply(preprocess_text)
test_data['message'] = test_data['message'].apply(preprocess_text)# 2. 特征提取与文本向量化
vectorizer = TfidfVectorizer()
X_train = vectorizer.fit_transform(train_data['message'])
X_test = vectorizer.transform(test_data['message'])# 对标签进行编码
label_encoder = LabelEncoder()
y_train = label_encoder.fit_transform(train_data['label'])
y_test = label_encoder.transform(test_data['label'])# 3. 建立机器学习模型
classifier = SVC(kernel='linear')# 4. 模型训练与评估
classifier.fit(X_train, y_train)
y_pred = classifier.predict(X_test)# 计算F1指标
f1 = f1_score(y_test, y_pred)print("F1 Score:", f1)

三、结果

F1 Score: 0.9469214437367303

本代码仅是抛砖引玉,希望诸君可以有其他更好的方法,比如使用GridSearchCV等等。当然我后续会分享其他代码解决上述问题

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/844247.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Jetpack架构组件_4. 数据绑定库页面传递数据

本篇介绍数据源从activity_main(1级页面)传递给include布局(2级页面)。 1.实现步骤 step1.修改build.gradle文件 修改app模块下的build.gradle文件,增加如下内容: dataBinding {enabled true} step2.创建…

java版本数字化时代的智能ERP管理系统:引 领企业高 效管理与创新发展

随着数字化浪潮的席卷,现代企业对于高 效、稳定、易于扩展的管理系统需求愈发迫切。为了满足这一需求,我们倾力打造了一款基于Java技术的企业级资源规划(ERP)管理系统。该系统以Spring Cloud Alibaba、Spring Boot、MybatisPlus、…

理解多线程看这一篇就够了

一、基本概念与关系 程序 程序是含有指令和数据的文件,静态地存储在磁盘等存储设备上。它是软件的实体,但未被激活。 进程 进程是程序的一次执行过程,是系统运行程序的基本单位。当程序被操作系统加载并执行时,就成为一个进程&a…

Nacos 进阶篇---Nacos服务下线做了哪些事情 ?(八)

一、引言 本章节是第一阶段最后一篇,那么我们今天要学习的源码内容是 “服务下线”. 当Nacos客户端下线的时候,是要去通知服务端,告诉服务端 “ 我已经下线,不可用了 ”。并且在服务下线时,还要去通知其他客户端服务更…

Linux命令那么多,先来一篇文件和目录管理命令!

💡本文建议大家收藏! 文件和目录管理命令 1. ls - 列出目录内容 ls命令是Linux中最常用的命令之一,用于列出目录中的文件和子目录。 ls显示当前目录下的所有文件和目录。 ls -l以长格式列出目录内容,显示文件权限、所有者、大…

如何便捷申请免费SSL证书,实现网站HTTPS安全传输

申请免费SSL证书的教程可以概括为以下几个通用步骤,这里以Lets Encrypt为例,因为它是最受欢迎的免费SSL证书提供商之一,同时也适用于多数其他免费SSL证书提供商: 1.准备工作 确认域名:确保你拥有一个有效的域名&…

CSS学习笔记:响应式布局的原理——媒体查询

什么是响应式布局? 在实际书写代码时,我们不会自己去手写媒体查询来实现响应式布局,我们一般会调用现成的代码库或使用现成的框架(但这些代码库或框架的底层原理是媒体查询,所以了解媒体查询也是很有必要的&#xff0…

AB实验人群定向HTE模型1 - Causal Tree

背景 论文给出基于决策树估计实验对不同用户的不同影响。并提出Honest,variance Penalty算法旨在改进CART在tree growth过程中的过拟合问题。 我们举个例子:科研人员想衡量一种新的降血压药对病人的效果,发现服药的患者有些血压降低但有些血…

机架式服务器是什么?

随着科学技术的快速发展,服务器的种类样式也变得多种多样了,其中根据服务器的外观来进行分类的有塔式服务器、刀片式服务器和机架式服务器多种类型,其中对于塔式服务器和刀片式服务器我们还是有一定的了解的,所以今天小编主要来带…

I2C协议详解

文章目录 概念工作模式 原理工作原理工作流程IIC协议的关键特点IIC通信过程 优点与缺点优点缺点 概念 IIC(Inter-Integrated Circuit)协议,也常被称为TWI(Two-Wire Interface)协议,是一种用于短距离通信的…

list常用接口模拟实现

文章目录 一、模拟list类的框架二、函数接口实现1、迭代器接口2、常用删除、插入接口3、常用其他的一些函数接口4、默认成员函数 一、模拟list类的框架 1、使用带哨兵的双向链表实现。 2、链表结点&#xff1a; // List的结点类 template<class T> struct ListNode {Li…

Python实现mysql基于配置文件的全自动增量数据备份

前言 在mysql备份或者高可用当中,常见的方式主要有NDBcluster集群,MGR组复制技术,Mycat+mysql分片存储技术(以上三种都可以在mysql专栏查看)以及主从备份。 在上述的几种方式中,所需要的机器及部署配置都是相当繁琐的,集群至少三台起步,对于一些小的备份场景下可能不…

卧式混料机:混合设备的智慧之选

卧式混料机&#xff0c;顾名思义&#xff0c;是一种采用卧式结构的混合设备。它的设计精巧&#xff0c;结构紧凑&#xff0c;不仅占用空间小&#xff0c;而且操作简便&#xff0c;维护方便。与传统的立式混料机相比&#xff0c;卧式混料机在混合效率、混合均匀度以及物料适应性…

DNS设置(linux)

1.配置dns需要现在/etc/sysconfig/network-scripts/目录下的ifcfg-ens33(后面数字也可能是其他的)中配置DNS 2.编辑/etc/resolv.conf文件&#xff0c;将上面网卡中加的dns服务器ip添加到此文件 vi /etc/resolv.conf重启网络配置 service network restart常用的dns的ip 国内…

香港优才计划申请时间要多久?各流程申请周期规划,再晚就来不及了!

香港优才计划申请时间要多久&#xff1f;各流程申请周期规划&#xff0c;再晚就来不及了&#xff01; 2024年是香港优才计划不限配额的最后一年&#xff0c;明年政策如何变化还未可知&#xff0c;但如果明年又设置限额了&#xff0c;那么今年最后的机会一定要抓住了。 在这里…

分享 - 树形dp

树形 d p dp dp 例1 - 基础 链接&#xff1a;树上子链 练手 分析 其实一看题就很显然的树形 d p dp dp子链在这里分为两种情况&#xff0c;如图黑链和红链 思路 d p [ i ] dp[i] dp[i] 表示以 i i i 开头的红链的最大权值易得&#xff1a; d p [ i ] m a x ( d p [ i…

Dice损失函数

Dice损失函数&#xff08;Dice Loss&#xff09;&#xff0c;也称为Dice系数损失或Srensen-Dice系数损失&#xff0c;是一种用于衡量两个集合相似度的指标&#xff0c;广泛应用于图像分割任务中。它的目标是最大化分割结果与真实标签之间的相似度。Dice损失函数基于Dice系数&am…

CE FDA注册相关标准:在线查看 下载

DICOM: View http://med nema.org/ 中文版&#xff1a;https://github.com/dicom-learning-group/dicom-standard-chinese/tree/master/Part01 发布历史&#xff1a;Approved Supplements

祝贺!阿里云PolarDB斩获数据库国际顶会ICDE 2024工业赛道最佳论文

5月17日消息&#xff0c;在荷兰举行的国际顶级数据库学术会议ICDE 2024上&#xff0c;阿里云斩获工业和应用赛道的“最佳论文奖”&#xff0c;这也是中国企业首次获此殊荣。阿里云PolarDB创新性地解决了数据库Serverless中跨机事务迁移的核心难题&#xff0c;将跨机迁移时间压缩…

智能客服:论小红书商家杀出重围的正确姿势!

小红书「起飞」密码 洞悉需求&#xff0c;主动应变 面对众多的互联网平台&#xff0c;选择一个合适的平台宣传自家的品牌&#xff0c;也是一门学问&#xff0c;从“遇事不决&#xff0c;小红书”&#xff0c;这一 slogan 就能精准地捕捉了用户搜索行为的新趋势。 在过去的十…