手把手教程:用Python开发一个自然语言处理模型,并用Flask进行部署

截住到目前为止,我们已经开发了许多机器学习模型,对测试数据进行了数值预测,并测试了结果。实际上,生成预测只是机器学习项目的一部分,尽管它是我认为最重要的部分。今天我们来创建一个用于文档分类、垃圾过滤的自然语言处理模型,使用机器学习来检测垃圾短信文本消息。我们的ML系统工作流程如下:离线训练->将模型作为服务提供->在线预测。

1、通过垃圾邮件和非垃圾邮件训练离线分类器。

2、经过训练的模型被部署为服务用户的服务。

当我们开发机器学习模型时,我们需要考虑如何部署它,即如何使这个模型可供其他用户使用。Kaggle和数据科学训练营非常适合学习如何构建和优化模型,但他们并没有教会工程师如何将它们带给其他用户使用,建立模型与实际为人们提供产品和服务之间存在重大差异。

在本文中,我们将重点关注:构建垃圾短信分类的机器学习模型,然后使用Flask(用于构建Web应用程序的Python微框架)为模型创建API。此API允许用户通过HTTP请求利用预测功能。让我们开始吧!

构建ML模型

数据是标记为垃圾邮件或正常邮件的SMS消息的集合,可在此处找到。首先,我们将使用此数据集构建预测模型,以准确分类哪些文本是垃圾邮件。朴素贝叶斯分类器是一种流行的电子邮件过滤统计技术。他们通常使用词袋功能来识别垃圾邮件。因此,我们将使用Naive Bayes定理构建一个简单的消息分类器。

import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import classification_reportdf = pd.read_csv('spam.csv', encoding="latin-1")
df.drop(['Unnamed: 2', 'Unnamed: 3', 'Unnamed: 4'], axis=1, inplace=True)
df['label'] = df['class'].map({'ham': 0, 'spam': 1})
X = df['message']
y = df['label']
cv = CountVectorizer()
X = cv.fit_transform(X) # Fit the Data
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)
#Naive Bayes Classifier
clf = MultinomialNB()
clf.fit(X_train,y_train)
clf.score(X_test,y_test)
y_pred = clf.predict(X_test)
print(classification_report(y_test, y_pred))

Naive Bayes分类器不仅易于实现,而且提供了非常好的性能。在训练模型之后,我们都希望有一种方法来保持模型以供将来使用而无需重新训练。为实现此目的,我们添加以下行以将我们的模型保存为.pkl文件供以后使用。

from sklearn.externals import joblib
joblib.dump(clf, 'NB_spam_model.pkl')

我们加载并使用保存的模型:

NB_spam_model = open('NB_spam_model.pkl','rb')
clf = joblib.load(NB_spam_model)

上述过程称为“标准格式的持久模型”,即模型以特定的开发语言的特定格式持久存储。下一步就是将模型在一个微服务中提供,该服务的公开端点用来接收来自客户端的请求。

将垃圾邮件分类器转换为Web应用程序

在上一节中准备好用于对SMS消息进行分类的代码之后,我们将开发一个Web应用程序,该应用程序由一个简单的Web页面组成,该页面具有允许我们输入消息的表单字段。在将消息提交给Web应用程序后,它将在新页面上呈现该消息,从而为我们提供是否为垃圾邮件的结果。

首先,我们为这个项目创建一个名为SMS-Message-Spam-Detector 的文件夹,这是该文件夹中的目录树,接下来我们将解释每个文件。

spam.csv
app.py
templates/home.htmlresult.html
static/style.css

子目录templates是Flask在Web浏览器中查找静态HTML文件的目录,在我们的例子中,我们有两个html文件:home.html和result.html 。

app.py

app.py文件包含将由Python解释器执行以运行Flask Web应用程序的主代码,还包含用于对SMS消息进行分类的ML代码

from flask import Flask,render_template,url_for,request
import pandas as pd 
import pickle
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.externals import joblibapp = Flask(__name__)@app.route('/')
def home():return render_template('home.html')@app.route('/predict',methods=['POST'])
def predict():df= pd.read_csv("spam.csv", encoding="latin-1")df.drop(['Unnamed: 2', 'Unnamed: 3', 'Unnamed: 4'], axis=1, inplace=True)# Features and Labelsdf['label'] = df['class'].map({'ham': 0, 'spam': 1})X = df['message']y = df['label']# Extract Feature With CountVectorizercv = CountVectorizer()X = cv.fit_transform(X) # Fit the Datafrom sklearn.model_selection import train_test_splitX_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)#Naive Bayes Classifierfrom sklearn.naive_bayes import MultinomialNBclf = MultinomialNB()clf.fit(X_train,y_train)clf.score(X_test,y_test)#Alternative Usage of Saved Model# joblib.dump(clf, 'NB_spam_model.pkl')# NB_spam_model = open('NB_spam_model.pkl','rb')# clf = joblib.load(NB_spam_model)if request.method == 'POST':message = request.form['message']data = [message]vect = cv.transform(data).toarray()my_prediction = clf.predict(vect)return render_template('result.html',prediction = my_prediction)if __name__ == '__main__':app.run(debug=True)

1、我们将应用程序作为单个模块运行,因此我们使用参数初始化了一个新的Flask实例,__name__是为了让Flask知道它可以在templates所在的同一目录中找到HTML模板文件夹()。

2、接下来,我们使用route decorator(@app.route('/'))来指定可以触发home 函数执行的URL 。我们的home 函数只是呈现home.htmlHTML文件,该文件位于templates文件夹中。

3、在predict函数内部,我们访问垃圾邮件数据集、预处理文本、进行预测,然后存储模型。我们访问用户输入的新消息,并使用我们的模型对其标签进行预测。

4、我们使用该POST方法将表单数据传输到邮件正文中的服务器。最后,通过debug=True在app.run方法中设置参数,进一步激活Flask的调试器。

5、最后,我们使用run函数执行在服务器上的脚本文件,我们需要确保使用if语句 __name__ == '__main__'。

home.html

以下是home.html将呈现文本表单的文件的内容,用户可以在其中输入消息:

<!DOCTYPE html>
<html>
<head><title>Home</title><!-- <link rel="stylesheet" type="text/css" href="../static/css/styles.css"> --><link rel="stylesheet" type="text/css" href="{{ url_for('static', filename='css/styles.css') }}">
</head>
<body><header><div class="container"><div id="brandname">Machine Learning App with Flask</div><h2>Spam Detector For SMS Messages</h2></div></header><div class="ml-container"><form action="{{ url_for('predict')}}" method="POST"><p>Enter Your Message Here</p><!-- <input type="text" name="comment"/> --><textarea name="message" rows="4" cols="50"></textarea><br/><input type="submit" class="btn-info" value="predict"></form></div>
</body>
</html>
view raw

style.css文件

在home.html的head部分,我们将加载styles.css文件,CSS文件是用于确定HTML文档的外观和风格的。styles.css必须保存在一个名为的子目录中static,这是Flask查找静态文件(如CSS)的默认目录。

body{font:15px/1.5 Arial, Helvetica,sans-serif;padding: 0px;background-color:#f4f3f3;
}.container{width:100%;margin: auto;overflow: hidden;
}header{background:#03A9F4;#35434a;border-bottom:#448AFF 3px solid;height:120px;width:100%;padding-top:30px;}.main-header{text-align:center;background-color: blue;height:100px;width:100%;margin:0px;}
#brandname{float:left;font-size:30px;color: #fff;margin: 10px;
}header h2{text-align:center;color:#fff;}.btn-info {background-color: #2196F3;height:40px;width:100px;} /* Blue */
.btn-info:hover {background: #0b7dda;}.resultss{border-radius: 15px 50px;background: #345fe4;padding: 20px; width: 200px;height: 150px;
}

style.css文件

result.html

我们创建一个result.html文件,该文件将通过函数render_template('result.html', prediction=my_prediction)返回呈现predict,我们在app.py脚本中定义该文件以显示用户通过文本字段提交的文本。result.html文件包含以下内容:

<!DOCTYPE html>
<html>
<head><title></title><link rel="stylesheet" type="text/css" href="{{ url_for('static', filename='css/styles.css') }}">
</head>
<body><header><div class="container"><div id="brandname">ML App</div><h2>Spam Detector For SMS Messages</h2>		</div></header><p style="color:blue;font-size:20;text-align: center;"><b>Results for Comment</b></p><div class="results">{% if prediction == 1%}<h2 style="color:red;">Spam</h2>{% elif prediction == 0%}<h2 style="color:blue;">Not a Spam (It is a Ham)</h2>{% endif %}</div>
</body>
</html>

result.html

从result.htm文件我们可以看到一些代码使用通常在HTML文件中找不到的语法例如,{% if prediction ==1%},{% elif prediction == 0%},{% endif %}这是jinja语法,它用于访问从HTML文件中请求返回的预测。

我们就要大功告成了!

完成上述所有操作后,你可以通过双击appy.py 或从终端执行命令来开始运行API :

cd SMS-Message-Spam-Detector
python app.py

你应该得到以下输出:

现在你可以打开Web浏览器并导航到http://127.0.0.1:5000/,你应该看到一个简单的网站,内容如下:

恭喜!我们现在以零成本的代价创建了端到端机器学习(NLP)应用程序。如果你回顾一下,其实整个过程根本不复杂。有点耐心和渴望学习的动力,任何人都可以做到。所有开源工具都使每件事都成为可能。

更重要的是,我们能够将我们对机器学习理论的知识扩展到有用和实用的Web应用程序!

完整的工作源代码可在此存储库中找到,祝你度过愉快的一周!

 

原文链接
本文为云栖社区原创内容,未经允许不得转载。

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/519276.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

干货|Spring Cloud Stream 体系及原理介绍

Spring Cloud Stream 在 Spring Cloud 体系内用于构建高度可扩展的基于事件驱动的微服务&#xff0c;其目的是为了简化消息在 Spring Cloud 应用程序中的开发。Spring Cloud Stream (后面以 SCS 代替 Spring Cloud Stream) 本身内容很多&#xff0c;而且它还有很多外部的依赖&a…

阿里小程序云应用上线了,有哪些看点?

3月21日&#xff0c;在2019阿里云峰会北京上&#xff0c;阿里巴巴旗下的阿里云、支付宝、淘宝、钉钉、高德等联合发布“阿里巴巴小程序繁星计划”&#xff1a;提供20亿元补贴&#xff0c;扶持200万小程序开发者、100万商家。凡入选“超星”的小程序&#xff0c;入驻支付宝、淘宝…

10 个实用功能告诉你,谷歌云(Google Cloud)相对亚马逊云(AWS)有哪些优势?...

来源 | itnext编译 | 武明利责编 | Carol出品 | CSDN云计算&#xff08;ID&#xff1a;CSDNcloud&#xff09;有很多文章将谷歌云提供商&#xff08;GCP&#xff09;与亚马逊云服务&#xff08;AWS&#xff09;进行比较&#xff0c;但这篇文章并不想要做比较。作者主要是一个AW…

mybatis-plus大批量数据插入缓慢问题

文章目录问题排查结果建议问题 最近项目用的mybatis-plus做的映射&#xff0c;有个批处理文件内容的需求&#xff0c;在使用mybatis-plus的批处理方法saveBatch时发现速度特别慢&#xff0c;测试从1000到10000到80000条基本上是线性增加&#xff0c;80000条时差不多要90秒。 …

世界冠军之路:菜鸟车辆路径规划求解引擎研发历程

阿里妹导读&#xff1a;车辆路径规划问题&#xff08;Vehicle Routing Problem, VRP&#xff09;是物流领域最经典的优化问题之一&#xff0c;具有极大的学术研究意义和实际应用价值。菜鸟网络高级算法专家胡浩源带领仓配智能化算法团队经过两年的研发&#xff0c;逐步沉淀出了…

原来,阿里工程师才是隐藏的“修图高手”!

阿里妹导读&#xff1a;在现实世界中&#xff0c;信息通常以不同的模态同时出现。这里提到的模态主要指信息的来源或者形式。例如在淘宝场景中&#xff0c;每个商品通常包含标题、商品短视频、主图、附图、各种商品属性&#xff08;类目&#xff0c;价格&#xff0c;销量&#…

分布式数据集训营,从入门到精通,从理论到实践,你不可错过的精品课程!...

责编 | Carol出品 | CSDN云计算&#xff08;ID&#xff1a;CSDNcloud&#xff09;随着微服务、云化架构的兴起&#xff0c;分布式数据库开始在越来越多的场景得到应用&#xff0c;从外围系统到中台业务&#xff0c;再到核心交易业务&#xff0c;分布式数据库成为企业基础架构转…

mybatis批量插入10万条数据的优化过程

在使用mybatis插入大量数据的时候,为了提高效率,放弃循环插入,改为批量插入,mapper如下: package com.lcy.service.mapper;import com.lcy.service.pojo.TestVO; import org.apache.ibatis.annotations.Insert;import java.util.List;/*** 功能描述&#xff1a;** author liuc…

java spring注解维护,从一次工程启动失败谈谈 spring 注解

原标题&#xff1a;从一次工程启动失败谈谈 spring 注解檀宝权Java 后端开发工程师&#xff0c;负责度假 App 后端和广告后端开发维护工作&#xff0c;熟悉 Tomcat&#xff0c;Spring&#xff0c;Mybatis&#xff0c;会点 Python&#xff0c;Lua。一、背景线上环境升级成 JDK8后…

探索Java日志的奥秘:底层日志系统-log4j2

前言 log4j2是apache在log4j的基础上&#xff0c;参考logback架构实现的一套新的日志系统&#xff08;我感觉是apache害怕logback了&#xff09;。 log4j2的官方文档上写着一些它的优点&#xff1a; 在拥有全部logback特性的情况下&#xff0c;还修复了一些隐藏问题API 分离&…

大地震!某大厂“硬核”抢人,放话:只要AI人才,高中毕业都行!

特斯拉创始人马斯克&#xff0c;在2019年曾许下很多承诺&#xff0c;其中一个就是&#xff1a;2019年底实现完全的自动驾驶。虽然这个承诺又成了flag&#xff0c;但是不妨碍他今年继续为这个承诺努力。这不&#xff0c;就在上周一&#xff0c;马斯克之间在twitter上放话了&…

Dart编译技术在服务端的探索和应用

前言 最近闲鱼技术团队在FlutterDart的多端一体化的基础上&#xff0c;实现了FaaS研发模式。Dart吸取了其它高级语言设计的精华&#xff0c;例如Smalltalk的Image技术、JVM的HotSpot和Dart编译技术又师出同门。由Dart实现的语言容器&#xff0c;它可以在启动速度、运行性能有不…

Python + ElasticSearch:有了这个超级武器,你也可以报名参加诗词大会了! | 博文精选...

来源 | CSDN 博客作者 | 天元浪子责编 | Carol出品 | CSDN云计算&#xff08;ID&#xff1a;CSDNcloud&#xff09;意犹未尽的诗词大会正月十六&#xff0c;中国诗词大会第五季落下帷幕。从2016年2月12日第一季于开播&#xff0c;迄今恰好四周年。在这个舞台上&#xff0c;时年…

Node.js 应用故障排查手册 —— 大纲与常规问题指标简介

楔子 你是否想要尝试进行 Node.js 应用开发但是又总听人说它不安全、稳定性差&#xff0c;想在公司推广扩张大前端的能力范畴和影响又说服不了技术领导。 JavaScript 发展到今天&#xff0c;早已脱离原本浏览器的战场&#xff0c;借助于 Node.js 的诞生将其触角伸到了服务端、P…

蚂蚁金服CTO程立:做工程要有“拧螺丝”的精神

“一台机器可能有无数颗螺丝&#xff0c;需要一个一个地拧&#xff0c;而且需要一圈一圈地拧&#xff0c;才能让系统间严丝合缝&#xff0c;顺利工作。代码的世界里&#xff0c;一个项目到底成功与否&#xff0c;也是取决于几个模型的关键特殊设置&#xff0c;就像拧螺丝一样。…

linux 环境安装DBI和DBD_03

文章目录一、软件下载二、安装DBI2.1. DBI下载2.2. 解压2.3. 安装依赖2.4. 编译2.5. 执行测试2.6. 安装2.6. 修改权限三、安装DBD-ORACLE组件3.1. DBI下载3.2. 修改权限3.3. 切换用户3.4. 解压3.5. 进入目录3.6. 初始化环境变量3.6. 查看配置的环境变量是否配置3.7. 刷新配置文…

像数据科学家一样思考:12步指南(上)

介绍 目前&#xff0c;数据科学家正在受到很多关注&#xff0c;因此&#xff0c;有关数据科学的书籍正在激增。我看过很多关于数据科学的书籍&#xff0c;在我看来他们中的大多数更关注工具和技术&#xff0c;而不是数据科学中细微问题的解决。直到我遇到Brian Godsey的“像数…

Mybatis-plus 大数据量数据流式查询通用接口

文章目录一、案例需求二、使用案例&#xff1a;2.1. 自定义查询接口2.2. 逻辑处理类2.3. 调用案例2.4. 具体逻辑处理案例三、企业案例3.1. key名称获取3.2. 逻辑类测试3.3.最后一个批次处理方案四、 通用SQL预编译处理4.1. 业务场景4.2. xml形式4.3. 注解形式五、企业案例5.1. …

基于MaxCompute的数仓数据质量管理

声明 本文中介绍的非功能性规范均为建议性规范&#xff0c;产品功能无强制&#xff0c;仅供指导。 参考文献 《大数据之路——阿里巴巴大数据实践》——阿里巴巴数据技术及产品部 著。 背景及目的 数据对一个企业来说已经是一项重要的资产&#xff0c;既然是资产&#xff…

IP应用加速 – DCDN迈入全栈新篇章

4月11日&#xff0c;第七届"亚太内容分发大会"暨CDN峰会国际论坛中&#xff0c;阿里云资深技术专家姚伟斌发布了DCDN子产品IP应用加速&#xff08;IPA&#xff09;。IPA是基于阿里云CDN本身的资源优化&#xff0c;对传输层&#xff08;TCP&UDP&#xff09;协议进…