tf-idf +逻辑回归来识别垃圾文本

引入相关包

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, auc, roc_auc_score
import joblib
import os
import pandas as pd
from sklearn.model_selection import train_test_split
import picklepath  = '/Users/xinghuatianying/data/DataSets/im_cheat/'
os.chdir(path)

加载数据

训练样本demo:

label	msg
1       全网最低价完善数据 手把手教你引流 详细+V:vd12388
1       耍.微.店等.级评.价销.量回头.率➕15314268311
1       我收姐妹+我QQ2877613260
1       违规啥啊 佳651815289➕我q
0       温和洁面膏+红粉爽肤水
0       小卡盲盒改地址
0       20杯(每个口味各4杯)
def load_data():data = pd.read_csv('msg_train.csv', sep = "\t", names=['label', 'msg'])#对数据进行随机打乱data = data.sample(frac=1, random_state=42)# print(data.shape)# print(data.head(10))#查看0-1的比例,可以看出来,数据集基本上平衡# print(data['label'].value_counts())# 对文本进行分字data['msg'] = data['msg'].apply(lambda x: ' '.join(x))# print(data.head())x_train, x_test, y_train, y_test = \train_test_split(data['msg'],data['label'],test_size=0.3,random_state=42)# print(x_train.shape, x_test.shape, y_train.shape, y_test.shape)return x_train, x_test, y_train, y_test

模型训练

def train_model(x_train, x_test, y_train, y_test):#tf-idf训练vectorizer_word = TfidfVectorizer(max_features=800000,token_pattern=r"(?u)\b\w+\b",min_df=1,#max_df=0.1,analyzer='word',ngram_range=(1, 5))tfidf_model = vectorizer_word.fit(x_train)# 保存模型到文件with open('tfidf_model.pkl', 'wb') as f:pickle.dump(tfidf_model, f)tfidf_train = vectorizer_word.transform(x_train)tfidf_test  = vectorizer_word.transform(x_test)#查看词典的大小 vectorizer_word.vocabulary_print(len(vectorizer_word.vocabulary_))#逻辑回归模型的训练lr_word = LogisticRegression(solver='sag',verbose=2)lr_word.fit(tfidf_train, y_train)# 保存模型,下次可以直接使用joblib.dump(lr_word, 'lr_word_ngram.pkl')#模型读取model = joblib.load(filename="lr_word_ngram.pkl")# 模型预测y_pred_word_1 = lr_word.predict(tfidf_test)y_pred_word = lr_word.predict_proba(tfidf_test)[:, 1]# 模型评估print(accuracy_score(y_test, y_pred_word_1))

模型预测

def predcit_main():# 拉取数据data = pd.read_csv('test_msg.csv', names=['msg'])#对数据进行随机打乱data = data.sample(frac=1, random_state=42)print(data.shape)print(data.head(10))# 对文本进行分字data['msg'] = data['msg'].apply(lambda x: ' '.join(x))x_test = data['msg']# 从文件中加载模型with open('tfidf_model.pkl', 'rb') as f:tfidf_model = pickle.load(f)print(x_test[:10])tfidf_test  = tfidf_model.transform(x_test)# 模型读取lr_model = joblib.load(filename="lr_word_ngram.pkl")# 模型预测y_pred_word = lr_model.predict_proba(tfidf_test)[:, 1]predict_df = pd.DataFrame({ 'y_pred_word': y_pred_word, 'x_test': x_test})# 保存到 CSV 文件predict_df.to_csv('predict_test.csv', index=False, sep = "\t")

标题主函数:

if __name__ == '__main__':x_train, x_test, y_train, y_test = load_data() # 加载训练数据train_model(x_train, x_test, y_train, y_test) # 模型训练predcit_main() # 模型预测

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/591660.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

今天用vite新建的vue3的项目 启动遇到报错

UnhandledPromiseRejectionWarning: SyntaxError: Unexpected token ??at Loader.moduleStrategy (internal/modules/esm/translators.js:145:18) (Use node --trace-warnings ... to show where the warning was created) (node:30304) UnhandledPromiseRejectionWarning: U…

普中STM32-PZ6806L开发板(HAL库函数实现-USART2 中断接收)

简介 实现USART2 的 中断接收, 发送数据。电路原理图 USART2接线 原理图USART2 在主芯片引脚 实物图 其他知识 APIs stm32f1xx_hal_uart.h /* 堵塞发送, pData是发送数据, Size发送数据大小, Timeout是超时时间 */ HAL_StatusTypeDef HAL_UART_Transmit(UAR…

小程序接收PHP返回中文乱码

小程序接收PHP返回中文乱码可能是由于编码不一致或字符集设置不正确导致的。以下是一些可能的解决方案: 确保PHP和微信小程序之间的编码一致:在PHP代码中,使用header(Content-Type: text/html; charsetutf-8);来设置正确的字符集为UTF-8。同…

跳过用例

章节目录: 一、概述二、跳过用例函数三、执行期间跳过剩余步骤四、跳过整个测试模块五、判断跳过部分用例六、跳过标记七、依赖检查八、结束语 一、概述 pytest.mark.skip 可以标记无法在某些平台上运行的测试功能,或者您希望失败的测试功能。希望满足某…

安卓在SOA中的运用

安卓在运用SOA研发的过程中,会针对实际情况对研发的架构和流程进行优化,通过优化过的架构和实施方案,不仅可以大大提升了整车开发的效率和灵活行以及功能落地的稳定性,同时也增加了系统的向上兼容性。 目前基于车载SOA系统的研发…

Python子进程内numpy.random失效

问题描述:子进程内调用 np.random.randint(),生成的随机数相同 问题分析:Random seed is replication across child processes Issue #9650 numpy/numpy GitHub 向大佬致敬 解决办法:在子进程调用的函数的首行添加 np.rand…

如何在Mendix中实现全文检索

功能背景 在日常的应用使用过程中,存在大量希望使用全文检索技术的场景,对资料库中的内容进行查询。Mendix默认的结构化查询方式,适合对特定业务实体进行类似数据库单表的基于SQL语句的查询。那如何在Mendix实现全文检索的功能呢&#…

聊聊PowerJob的HttpProcessor

序 本文主要研究一下PowerJob的HttpProcessor BasicProcessor tech/powerjob/worker/core/processor/sdk/BasicProcessor.java public interface BasicProcessor {/*** 核心处理逻辑* 可通过 {link TaskContext#getWorkflowContext()} 方法获取工作流上下文** param contex…

Windows CPU部署llama2量化模型并实现API接口

目录 模型部署本地运行llama2使用fastapi实现API接口常用git仓库 模型部署 从huggingface下载模型 https://huggingface.co/ 放在本地文件夹,如下 本地运行llama2 from ctransformers import AutoModelForCausalLMllm AutoModelForCausalLM.from_pretrained(&q…

请求转发和重定向的区别

当客户端向服务器发送一个请求时,服务器可以通过请求转发和重定向两种方式来处理请求。这两种方式有着不同的实现机制和应用场景。 请求转发(Forward): 请求转发是指服务器接收到一个客户端的请求后,将该请求转发给另…

微软好听的tts语音包下载,粤语,韩语,日语

微软的 tts 语音库,都是离线的,所以速度非常快 但资源比较少,比如粤语,韩语,日语 我发现一个老牌语音技术供应商。 资源丰富,可自行下载免费或收费语音包。 网站:正版用户专用配套播音员下载…

gitee添加仓库人员

1.进入gitee项目,点击管理 2.点击仓库成员管理,展开仓库成员管理节点,选择所有或者开发者 3.点击添加仓库成员 4. 邀请用户

Superset二次开发之环境部署(Docker版)

目录结构: /data/superset ├── 3.x-build.sh – docker build 命令脚本 ├── 3.x-run.sh – docker run 命令脚本 ├── src …

1214:八皇后 深度优先搜索算法

1214:八皇后 时间限制: 1000 ms 内存限制: 65536 KB 提交数: 22901 通过数: 14116 【题目描述】 会下国际象棋的人都很清楚:皇后可以在横、竖、斜线上不限步数地吃掉其他棋子。如何将8个皇后放在棋盘上(有8 8个方格)&#xff0c…

深度生成模型之GAN的评估 ->(个人学习记录笔记)

文章目录 深度生成模型之GAN的评估图像翻译的应用1. 风格迁移2. 数据增强3. 经典图像任务4. 内容创作5. 人脸图像编辑6. 人体图像编辑 图像翻译模型1. 有监督图像翻译模型2. 无监督图像翻译模型3. 多域图像翻译模型 深度生成模型之GAN的评估 图像翻译的应用 1. 风格迁移 各类…

2024年腾讯云服务器租用价格表_优惠活动大全_实时更新

腾讯云服务器租用价格表:轻量应用服务器2核2G3M价格62元一年、2核2G4M价格118元一年,540元三年、2核4G5M带宽218元一年,2核4G5M带宽756元三年、轻量4核8G12M服务器446元一年、646元15个月,云服务器CVM S5实例2核2G配置280.8元一年…

NA原理及配置

在IP地址空间中,a;b;c类地址中各有一部分地址,被称为私有IP地址(私网地址),其余的为公有IP地址(公网地址) A:10.0.0.0 - 10.255.255.255 --- 相当于1条A类网段…

PyTorch官网demo解读——第一个神经网络(4)

上一篇:PyTorch官网demo解读——第一个神经网络(3)-CSDN博客 上一篇我们聊了手写数字识别神经网络的损失函数和梯度下降算法,这一篇我们来聊聊激活函数。 大佬说激活函数的作用是让神经网络产生非线性,类似人脑神经元…

十年磨一剑,花为缘享奢app打造行业的又一颠覆性创新

随着国内生活质量的提高,人们对于奢侈品的消费需求也在不断增长。消费者对于高品质、高价值的商品和服务的需求日益增长。2022年我国内地消费者奢侈品市场规模约为4700亿元,预计2023年我国内地消费者奢侈品消费预计将达到5500亿元,呈现出强劲…

旅游平台网页前后端

功能清单 游客功能 用户注册、登录登录权限拦截按名称搜索房间支付流程查看订单信息和状态评论预定过的房间,并自动修改订单状态查看统计剩余房间数量,数量为0时不可预定 管理员功能 房间分类管理 类型的删除、修改、查询(准备添加增添功能…