卷积神经网络爬虫实现新闻在线分类系统

卷积神经网络&&爬虫实现网易新闻自动爬取并分类

项目地址

采用THUCnews全部数据集进行训练,效果如下。 详细实现见./text_classification

部署步骤如下:


运行环境

服务器:Ubuntu 16.04
数据库:Mysql 5.6
python:Anaconda 5.1
Tensorflow-CPU:1.7
额外的包:参考requirements.txt,有则忽略,无则安装。

certifi==2018.1.18
chardet==3.0.4
Django==2.0.4
docopt==0.6.2
idna==2.6
mysql-connector==2.1.6
pipreqs==0.4.9
pytz==2018.4
requests==2.18.4
SQLAlchemy==1.2.6
urllib3==1.22
yarg==0.1.9


  1. 首先安装mysql到数据库,执行text_classification.sql创建数据库。更改数据库配置./text_classification/connect_mysql.py
  2. 服务器安装Anaconda(清华大学镜像站自行下载安装),安装TensorFlow-CPU版
  3. 将本项目部署至/home/www目录下
  4. 安装其他依赖包

pip install -r requirements.txt 服务器部署Django环境(apache2.4)
参考:https://code.ziqiangxuetang.com/django/django-deploy.html 关于本项目部署中的Django配置请看以下操作
安装 apache2 和 mod_wsgi
sudo apt-get install apache2
sudo apt-get install libapache2-mod-wsgi-py3
新建网站配置文件
vim /etc/apache2/sites-available/text_classification.conf
输入以下内容
<VirtualHost classify.i-ll.cc:80>ServerName classify.i-ll.ccServerAlias classify.i-ll.ccServerAdmin dandanv5@hotmail.comAlias /static /home/www/text_classification/static<Directory /home/www/text_classification>Require all granted</Directory>WSGIScriptAlias / /home/www/text_classification/myweb/wsgi.py<Directory /home/www/text_classification/myweb><Files wsgi.py>Require all granted</Files></Directory>
</VirtualHost>

激活新网站

sudo a2ensite sitename.conf
7. 启动项目
cd /home/www/text_classification/text_classification && sh startproject.sh
项目运行日志在./log下

最后本项目使用的THUCNews中文新闻数据集,可以去官网下载。我对数据集进行了整合处理,下载地址见./text_classification/data/cnews/README.md
关于本项目中模型和爬虫部分,详见./text_classification/README.md

代码有问题请直接提issues。

部署有疑问请直接联系:

QQ:447600334
Email:dandanv5@hotmail.com

参考:CNN字符级中文文本分类-基于TensorFlow实现

转载于:https://www.cnblogs.com/Chizhao/p/10439733.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/486080.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

搞基础理论研究有什么用?

来源&#xff1a;数学中国人类文明的诞生是一个奇迹&#xff0c;构筑在现代科学技术基础之上的现代人类文明的诞生更是奇迹中的奇迹。这个奇迹中的奇迹的根基是现代技术及其广泛应用&#xff0c;而现代技术的根基则是现代科学&#xff0c;科学的根基是以数学为主要工具的基础科…

由内而外:大脑是如何形成感官记忆的

大数据文摘出品来源&#xff1a;sciencedaily编译&#xff1a;张大笔茹通常&#xff0c;大脑会对我们感官收集的信息进行编码。为了感知环境并与之进行建设性的互动&#xff0c;这些感官信号需要在以往的经验和当前目标的背景下进行解释。最新一期的《科学》杂志上&#xff0c;…

oracle clob截取_Oracle数据库设计规范建议

Oracle-数据库设计规范建议来源于项目资料目的本规范的主要目的是希望规范数据库设计&#xff0c;尽量提前避免由于数据库设计不当而产生的麻烦&#xff1b;同时好的规范&#xff0c;在执行的时候可以培养出好的习惯&#xff0c;好的习惯是软件质量的很好的保证。数据库设计是指…

揭秘美国空军如何用AI技术提升“战斗力”

以AI技术为基础&#xff0c;美国空军正努力将自身转化为更强调协作性的组织。来源丨Forbes作者丨Kathleen Walch编译丨科技行者通过增加数据规模与相关素养提升&#xff0c;美国空军各部门及人员&#xff0c;将建立起更强的决策、战略、任务执行以及网络安全保障效率与能力。以…

数字孪生:如何撑起一个万亿市场的产业变革?

来源&#xff1a; 脑极体 今天我们介绍一个在产业界如火如荼&#xff0c;但大众还非常陌生的概念&#xff1a;数字孪生&#xff08;Digital Twin&#xff09;。在解释这一晦涩难懂的概念前&#xff0c;我首先想到了一个人&#xff0c;前苏联著名的昆虫学家、数学家和哲学家——…

二、python框架相关知识体系

Django框架 1、django框架、flask框架和Tornado框架的区别&#xff1f; django框架&#xff0c;内置组件多&#xff0c;自身功能强大&#xff0c;是一个大而全的框架&#xff0c;ORM、Admin、中间件、Form、ModelFrom、信号、缓存、csrf等flask框架&#xff0c;内置组件少&…

Android跟web哪个好,比系统自带的WebView更好用 | AgentWeb

名称AgentWeb语言Android平台GitHub作者Justson在混合化开发大行其道的今天&#xff0c;安卓开发经常会用到WebView&#xff0c;用于加载网页。系统自带的WebView性能和流畅度都一般&#xff0c;今天给大家推荐一款第三方WebView&#xff0c;性能比系统自带的要好&#xff0c;功…

神经科学如何影响人工智能?看DeepMind在NeurIPS2020最新《神经科学人工智能》报告,126页ppt...

来源&#xff1a;专知Jane Wang是DeepMind神经科学团队的一名研究科学家&#xff0c;研究元强化学习和受神经科学启发的人工智能代理。她的背景是物理、复杂系统、计算和认知神经科学。Kevin Miller是DeepMind神经科学团队的研究科学家&#xff0c;也是伦敦大学学院的博士后。他…

科普长文揭秘生命为何会具有主观能动性

来源&#xff1a;混沌巡洋舰动物的免疫系统依赖于被称为巨噬细胞的白细胞吞噬并吞噬入侵者。这些细胞有着坚定的决心和热情: 在显微镜下&#xff0c;你可以看到一个像球状的巨噬细胞在玻璃片上追逐一个细菌&#xff0c;它的猎物试图通过红细胞的障碍物逃跑时&#xff0c;而在它…

Linux——Centos7网络配置1ens33文件

解决的是 Name or service not known 的问题 [rootwww ~]# ping www.baidu.comping: www.baidu.com: Name or service not known [rootwww ~]# 1、网络配置查看 记住NAT设置中的子网IP、子网掩码、网关IP三项&#xff0c;接下来配置文件主要是这三项。网关一般就是.2,ip设置为…

科技垄断正在朝着纵向发展

来源&#xff1a;CSDN译者&#xff1a;弯月以下为译文&#xff1a;科技垄断有关的话题&#xff0c;相信大家都不陌生&#xff0c;而纵向垄断指的是通过技术栈深入到硬件的纵向集成。在本文中&#xff0c;我们来讨论一下为什么当下科技垄断开始朝着纵向发展&#xff0c;这种垄断…

android10全局黑暗,传Android 11或加入自动切换全局黑暗模式功能

日前有外媒援引消息人士爆料称&#xff0c;谷歌曾在Android 10系统中带来了全局黑暗模式功能&#xff0c;但自动切换黑暗模式的功能却在Android 10系统的早期测试阶段意外遭砍&#xff01;而据最新消息显示&#xff0c;Android 11系统有望上线自动切换全局黑暗模式功能。按照An…

物理学走向尽头了?

制图&#xff1a;James OBrien作者&#xff1a;罗伯特戴克赫拉夫&#xff08;Robbert Dijkgraaf&#xff09;文章来源&#xff1a;环球科学物理学是否已经穷尽了人类探索的极限&#xff1f;亦或是才刚刚开始&#xff1f;普林斯顿高等研究所主任戴克赫拉夫给出了他的看法。物理学…

逆向工程-真码保存在系统文件破解QQ游戏对对碰助手

1&#xff09;注册栏中输入任意值测试 1.2&#xff09;记录弹出的关键字对话框 2.1&#xff09;发送至PEID进行查壳 2.2&#xff09;发现无壳 2.3)将软件载入OllyDBG程序 2.4&#xff09;在反汇编栏下右键选择中文搜索引擎-》智能搜索 2.5&#xff09;找到弹窗信息双击进入 3.0…

欢迎参加《城市大脑全球标准研究报告》发布会

《2020城市大脑全球标准研究报告》将与2020年12月23日在北京正式发布。这份报告是科学院研究团队基于城市大脑基础理论研究并与产业实践结合&#xff0c;形成的世界第一份城市大脑全球标准研究报告。欢迎新闻媒体、科研机构、科技企业、政府部门的记者&#xff0c;专家和领导参…

动态规划--Leetcode62--不同路径

一个机器人位于一个 m x n 网格的左上角 &#xff08;起始点在下图中标记为“Start” &#xff09;。 机器人每次只能向下或者向右移动一步。机器人试图达到网格的右下角&#xff08;在下图中标记为“Finish”&#xff09;。 问总共有多少条不同的路径&#xff1f; 例如&…

html5+实现图片自动切换,js图片自动切换效果处理代码

var curIndex0;//时间间隔 单位毫秒var timeInterval1000;var arrnew Array();arr[0]"1.jpg";arr[1]"2.jpg";arr[2]"3.jpg";arr[3]"4.jpg";arr[4]"5.jpg";arr[5]"6.jpg";arr[6]"7.jpg";setInterval(cha…

深度学习已经彻底改变了制造业的质量控制,但还不够深入

Photo-illustration: Neurala来源&#xff1a;IEEE电气电子工程师这是一篇客座文章。这里所表达的观点只是作者的观点&#xff0c;并不代表IEEE Spectrum或IEEE的立场。在2020年&#xff0c;我们看到了深度学习的加速利用&#xff0c;这是所谓的工业4.0革命的一部分&#xff0c…

Pycharm简单配置及详细快捷键介绍

Pycharm的配置 修改主题&#xff1a; File-》Setting&#xff1a; Appearance&Behavior->UI Options->Theme: 显示行号&#xff1a; Editor-General-Appearance 选择show line numbers显示行号&#xff1a; 修改字体大小&#xff1a; Editor-Colors&Font-Font&am…

“重”磅!人造物质量首超全球生物量

图片来源&#xff1a;HUSEYINTUNCER/ ISTOCK来源&#xff1a;科学技术哲学作者&#xff1a;辛雨12月10日&#xff0c;《自然》发表的最新研究显示&#xff0c;建筑、道路、汽车等人造物体的质量现已超过地球上的生物总量&#xff0c;而每周的新增物量相当于地球上近80亿人口的总…