卷积神经网络爬虫实现新闻在线分类系统

卷积神经网络&&爬虫实现网易新闻自动爬取并分类

项目地址

采用THUCnews全部数据集进行训练,效果如下。 详细实现见./text_classification

部署步骤如下:


运行环境

服务器:Ubuntu 16.04
数据库:Mysql 5.6
python:Anaconda 5.1
Tensorflow-CPU:1.7
额外的包:参考requirements.txt,有则忽略,无则安装。

certifi==2018.1.18
chardet==3.0.4
Django==2.0.4
docopt==0.6.2
idna==2.6
mysql-connector==2.1.6
pipreqs==0.4.9
pytz==2018.4
requests==2.18.4
SQLAlchemy==1.2.6
urllib3==1.22
yarg==0.1.9


  1. 首先安装mysql到数据库,执行text_classification.sql创建数据库。更改数据库配置./text_classification/connect_mysql.py
  2. 服务器安装Anaconda(清华大学镜像站自行下载安装),安装TensorFlow-CPU版
  3. 将本项目部署至/home/www目录下
  4. 安装其他依赖包

pip install -r requirements.txt 服务器部署Django环境(apache2.4)
参考:https://code.ziqiangxuetang.com/django/django-deploy.html 关于本项目部署中的Django配置请看以下操作
安装 apache2 和 mod_wsgi
sudo apt-get install apache2
sudo apt-get install libapache2-mod-wsgi-py3
新建网站配置文件
vim /etc/apache2/sites-available/text_classification.conf
输入以下内容
<VirtualHost classify.i-ll.cc:80>ServerName classify.i-ll.ccServerAlias classify.i-ll.ccServerAdmin dandanv5@hotmail.comAlias /static /home/www/text_classification/static<Directory /home/www/text_classification>Require all granted</Directory>WSGIScriptAlias / /home/www/text_classification/myweb/wsgi.py<Directory /home/www/text_classification/myweb><Files wsgi.py>Require all granted</Files></Directory>
</VirtualHost>

激活新网站

sudo a2ensite sitename.conf
7. 启动项目
cd /home/www/text_classification/text_classification && sh startproject.sh
项目运行日志在./log下

最后本项目使用的THUCNews中文新闻数据集,可以去官网下载。我对数据集进行了整合处理,下载地址见./text_classification/data/cnews/README.md
关于本项目中模型和爬虫部分,详见./text_classification/README.md

代码有问题请直接提issues。

部署有疑问请直接联系:

QQ:447600334
Email:dandanv5@hotmail.com

参考:CNN字符级中文文本分类-基于TensorFlow实现

转载于:https://www.cnblogs.com/Chizhao/p/10439733.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/486080.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

搞基础理论研究有什么用?

来源&#xff1a;数学中国人类文明的诞生是一个奇迹&#xff0c;构筑在现代科学技术基础之上的现代人类文明的诞生更是奇迹中的奇迹。这个奇迹中的奇迹的根基是现代技术及其广泛应用&#xff0c;而现代技术的根基则是现代科学&#xff0c;科学的根基是以数学为主要工具的基础科…

android传感器博客,Android实现接近传感器

本文实例为大家分享了Android实现接近传感器的具体代码&#xff0c;供大家参考&#xff0c;具体内容如下1.接近传感器检测物体与听筒(手机)的距离&#xff0c;单位是厘米。一些接近传感器只能返回远和近两个状态&#xff0c;如我的手机魅族E2只能识别到两个距离&#xff1a;0CM…

python 内存分析_python内存管理分析

本文较为详细的分析了python内存管理机制。分享给大家供大家参考。具体分析如下&#xff1a;内存管理&#xff0c;对于Python这样的动态语言&#xff0c;是至关重要的一部分&#xff0c;它在很大程度上甚至决定了Python的执行效率&#xff0c;因为在Python的运行中&#xff0c;…

牛客网--牛牛的闹钟

牛牛总是睡过头&#xff0c;所以他定了很多闹钟&#xff0c;只有在闹钟响的时候他才会醒过来并且决定起不起床。从他起床算起他需要X分钟到达教室&#xff0c;上课时间为当天的A时B分&#xff0c;请问他最晚可以什么时间起床 输入描述: 每个输入包含一个测试用例。 每个测试用…

由内而外:大脑是如何形成感官记忆的

大数据文摘出品来源&#xff1a;sciencedaily编译&#xff1a;张大笔茹通常&#xff0c;大脑会对我们感官收集的信息进行编码。为了感知环境并与之进行建设性的互动&#xff0c;这些感官信号需要在以往的经验和当前目标的背景下进行解释。最新一期的《科学》杂志上&#xff0c;…

android设置大小能用小数,Android中关于保留小数点位数的处理

保留两位小数方法一&#xff1a;{double c 3.154215;java.text.DecimalFormat myformatnew java.text.DecimalFormat("0.00");String str myformat.format(c);}方式二&#xff1a;{java.text.DecimalFormat df new java.text.DecimalFormat("#.00");df.…

oracle clob截取_Oracle数据库设计规范建议

Oracle-数据库设计规范建议来源于项目资料目的本规范的主要目的是希望规范数据库设计&#xff0c;尽量提前避免由于数据库设计不当而产生的麻烦&#xff1b;同时好的规范&#xff0c;在执行的时候可以培养出好的习惯&#xff0c;好的习惯是软件质量的很好的保证。数据库设计是指…

牛客网--19校招--俄罗斯方块

题目描述 小易有一个古老的游戏机&#xff0c;上面有着经典的游戏俄罗斯方块。因为它比较古老&#xff0c;所以规则和一般的俄罗斯方块不同。 荧幕上一共有 n 列&#xff0c;每次都会有一个 1 x 1 的方块随机落下&#xff0c;在同一列中&#xff0c;后落下的方块会叠在先前的方…

揭秘美国空军如何用AI技术提升“战斗力”

以AI技术为基础&#xff0c;美国空军正努力将自身转化为更强调协作性的组织。来源丨Forbes作者丨Kathleen Walch编译丨科技行者通过增加数据规模与相关素养提升&#xff0c;美国空军各部门及人员&#xff0c;将建立起更强的决策、战略、任务执行以及网络安全保障效率与能力。以…

android 查询wifi信息的类,Android 获取wifi信息

在androi中WIFI信息的获取可以通过系统提供的WIFI Service获取。WifiManager wifi_service (WifiManager)getSystemService(WIFI_SERVICE);WifiInfo wifiInfo wifi_service.getConnectionInfo();其中WifiInfo 中比较常用的信息有&#xff1a;/*info.getBSSID()&#xf…

bashsupport插件_如何用 bash-support 插件将 Vim 编辑器打造成编写 Bash 脚本的 IDE

IDE(集成开发环境)就是这样一个软件&#xff0c;它为了最大化程序员生产效率&#xff0c;提供了很多编程所需的设施和组件。 IDE 将所有开发工作集中到一个程序中&#xff0c;使得程序员可以编写、修改、编译、部署以及调试程序。在这篇文章中&#xff0c;我们会介绍如何通过使…

java--自动装箱,拆箱

自动装箱&#xff1a;把基本类型转换为包装类类型 自动拆箱&#xff1a;把包装类类型转换为基本类型 之前无法自动装箱时&#xff1a; public static void main(String[] args) { int x 100; Integer i1 new Integer(x); //将基本数据类型包装成对象&#xff0c;装箱 int…

数字孪生:如何撑起一个万亿市场的产业变革?

来源&#xff1a; 脑极体 今天我们介绍一个在产业界如火如荼&#xff0c;但大众还非常陌生的概念&#xff1a;数字孪生&#xff08;Digital Twin&#xff09;。在解释这一晦涩难懂的概念前&#xff0c;我首先想到了一个人&#xff0c;前苏联著名的昆虫学家、数学家和哲学家——…

二、python框架相关知识体系

Django框架 1、django框架、flask框架和Tornado框架的区别&#xff1f; django框架&#xff0c;内置组件多&#xff0c;自身功能强大&#xff0c;是一个大而全的框架&#xff0c;ORM、Admin、中间件、Form、ModelFrom、信号、缓存、csrf等flask框架&#xff0c;内置组件少&…

Android跟web哪个好,比系统自带的WebView更好用 | AgentWeb

名称AgentWeb语言Android平台GitHub作者Justson在混合化开发大行其道的今天&#xff0c;安卓开发经常会用到WebView&#xff0c;用于加载网页。系统自带的WebView性能和流畅度都一般&#xff0c;今天给大家推荐一款第三方WebView&#xff0c;性能比系统自带的要好&#xff0c;功…

牛客网--2019校招--瞌睡

题目描述 小易觉得高数课太无聊了&#xff0c;决定睡觉。不过他对课上的一些内容挺感兴趣&#xff0c;所以希望你在老师讲到有趣的部分的时候叫醒他一下。你知道了小易对一堂课每分钟知识点的感兴趣程度&#xff0c;并以分数量化&#xff0c;以及他在这堂课上每分钟是否会睡着…

preview窗口 unity_Unity3D在Preview中打印日志的方法

Preview窗口除了可以预览模型之外&#xff0c;我们还可以做别的操作。今天我们来写个小工具在Preview窗口中显示调试信息。可以看下面的图&#xff0c;同样是打印 health 和 power 的日志&#xff0c;在 Preview 中显示比在 Console 中显示舒服多了。左边是Console中显示,右边是…

神经科学如何影响人工智能?看DeepMind在NeurIPS2020最新《神经科学人工智能》报告,126页ppt...

来源&#xff1a;专知Jane Wang是DeepMind神经科学团队的一名研究科学家&#xff0c;研究元强化学习和受神经科学启发的人工智能代理。她的背景是物理、复杂系统、计算和认知神经科学。Kevin Miller是DeepMind神经科学团队的研究科学家&#xff0c;也是伦敦大学学院的博士后。他…

android 6.0 x86 64,安卓x86 6.0 iso下载|android x86 6.0 iso系统下载RC1 版_64位/32位IT猫扑网...

android x86 6.0 iso系统镜像最新发布&#xff0c;rc1版修复了之前的问题&#xff0c;android-x86 6.0-rc1(marshmallow-x86)这是android-x86 6.0的第一个候选版本(marshmallow-x86)稳定释放。小编已将32位和64位的安卓6.0 x86系统分网盘&#xff0c;欢迎下载使用。主要特点6.0…

牛客网--2019校招--丰收

题目描述 又到了丰收的季节&#xff0c;恰逢小易去牛牛的果园里游玩。 牛牛常说他对整个果园的每个地方都了如指掌&#xff0c;小易不太相信&#xff0c;所以他想考考牛牛。 在果园里有N堆苹果&#xff0c;每堆苹果的数量为ai&#xff0c;小易希望知道从左往右数第x个苹果是属…