redis关键字删除_微信公众号文章防删除

阅读本文大概需要 3.6 分钟。

前段时间《一个出身寒门的状元之死》刷屏了,当我看完了这篇文章,很有感触,一开始我以为是事实,后来才发现完全是虚构,对于我来讲并不是非常在乎文章中的故事是否是真实的,我在乎文章给我的那种生活体验。

文中那个出身寒门的状元,不为利益而牺牲自己的原则,也就是不做恶:比如在做家教时,有钱人家的学生让他把寒假作业的答案发给他们,这样他就可以获得丰厚的报酬,然而他坚决不做,还为此挨了打。文中有很多这样的事情。

那个出身寒门的状元坚持不做恶,这也让他处处碰壁,最后,竟得病死了,不管怎么说,这样一身正气,充满正能量的人却死了,周围那些到处谄媚,逢场作戏的人却活的好好的,不得不说这样的结局让很多人感到惋惜。我想这也是此文章有很多阅读量的原因。作者的写作手法非常高超:要引发人们的羡慕,就捧到天上,要赚取眼泪,就踩到泥里。人造的落差感,到底还是缺了点生活。

但是现在想看这篇文章时,已经无法访问了。

7c67706ddeade02042c086936670f6bf.png

当我看到这个时很震惊,心想这么好的阅读体验的文章就这么没了,在网上搜索了好久都搜索不到。心里一阵堵。

唉,如何防止喜欢的公众号文章被删除呢? 那就是当天就把该文章保存起来,有时间再回头慢慢玩味。现在每个人都很忙,而且关注的公众号也多,有没有程序来帮我做这件事呢?

还真有,我搜索了一下,发现这样一个好的开源项目:wechat-spider

界面预览

1) 要爬取的微信公众号列表

b41559fce1bf663622ab51e5c6e4dce3.png

2) 要爬取的文章关键字列表

1a8c05ddd9a2acded804806b2974b112.png

3) 已经爬取的微信文章

3ee249b0d657fb4102929224e9b72282.png

4) 查看文章,并标记是否可用

b0996238c2c8f116e291ffda57988157.png

5) 控制爬取进程数

8fca5315e0f13cdab5f59c22a150c974.png

技术栈

python + django + redis + mysql

安装

1)python环境, 检查python的版本,是否为2.7.x,如果不是,安装2.7.6。

如果是centos 6.x,升级python2.6到python2.7,参考教程 http://ruiaylin.github.io/2014/12/12/python%20update/

如果是centos 7.x,默认就是python2.7,不用升级

如果是mac osx,可以使用virtualenv,安装python2.7

2)安装依赖包, clone代码
安装Mysql-python依赖

yum install python-devel mysql-devel gcc

安装lxml依赖

yum install libxslt-devel libxml2-devel

安装浏览器环境 selenium依赖.(如果是mac环境,仅需安装firefox, 但确保版本是 firefox 36.0,使用最新的版本会报错)

yum install xorg-x11-server-Xvfb
yum upgrade glib2 # 确保glib2版本大于2.42.2,否则firefox启动会报错 
yum install firefox # centos下安装最新的firefox版本

clone代码,安装依赖python库

$ git clone https://github.com/bowenpay/wechat-spider.git$ cd wechat-spider$ pip install -r requirements.txt

3) 创建mysql数据库

创建数据库wechatspider,默认采用utf8编码。(如果系统支持,可以采用utf8mb4,以兼容emoji字符)

mysql> CREATE DATABASE `wechatspider` CHARACTER SET utf8;

4) 安装和运行Redis

$ wget http://download.redis.io/releases/redis-2.8.3.tar.gz$ tar xzvf redis-2.8.3.tar.gz$ cd redis-2.8.3$ make$ make install$ redis-server

5) 更新配置文件local_settings

在 wechatspider 目录下,添加 local_settings.py 文件,配置如下:

# -*- coding: utf-8 -*-
SECRET_KEY="xxxxxx"
CRAWLER_DEBUG = True# aliyun oss2, 可以将图片和视频存储到阿里云,也可以选择不存储,爬取速度会更快。 默认不存储。#OSS2_ENABLE = True#OSS2_CONFIG = {#    "ACCESS_KEY_ID": "XXXXXXXXXXXXXX",#    "ACCESS_KEY_SECRET": "YYYYYYYYYYYYYYYYYYYYYY",#    "ENDPOINT": "",#    "BUCKET_DOMAIN": "oss-cn-hangzhou.aliyuncs.com",#    "BUCKET_NAME": "XXXXX",#    "IMAGES_PATH": "images/",#    "VIDEOS_PATH": "videos/",#    "CDN_DOMAIN": "XXXXXX.oss-cn-hangzhou.aliyuncs.com"#}# mysql 数据库配置
DATABASES = {'default': {'ENGINE': 'django.db.backends.mysql','HOST': '127.0.0.1','NAME': 'wechatspider','USER': 'root','PASSWORD': '','OPTIONS':{'charset': 'utf8mb4',
        },
    }
}# redis配置,用于消息队列和k-v存储
REDIS_OPTIONS = {'host': 'localhost','port': 6379,'password': '','db': 4
}

6) 初始化表

$ python manage.py migrate

7)启动网站

python manage.py runserver 0.0.0.0:8001

访问 http://localhost:8001/。

6) 创建超级管理员账号,访问后台,并配置要爬取的公众号和关键字

python manage.py createsuperuser

8)启动爬虫

$ python bin/scheduler.py$ python bin/downloader.py$ python bin/extractor.py$ python bin/processor.py

以上步骤执行成功,并能爬取文章后,可以考虑使用 uwsgi + nginx 在生产环境部署。

项目 github 地址: https://github.com/bowenpay/wechat-spider

(完)

772290b528265cbdc8bc55cb0acae124.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/506459.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

java单链表节点翻转_Java数据结构01-链表基础(讲解+代码+面试题)

文章结构链表的概念/用处链表的基本代码实现(韩顺平Java数据结构网课)剑指offer上链表题目代码实现(个人手敲,更精巧的答案可以参考官网)链表链表包含单链表,双向链表,循环链表等等。相对于线性…

分解连续自然数的和_小学奥数各年级经典题解题技巧大全——分解因数法(2)...

*例7:在等式35( )8127718( )162的两个括号中,填上适当的最小的数。(适于六年级程度)解:将已知等式的两边分解质因数,得:5377( )22367( )把上面的等式化简,得:15( )4( )所以&a…

即席和即兴_即兴说话小课堂

即 兴 说 话 小 课 堂了解发音的小知识,运用语言技巧,通过音色、音强,来达到的一种发音。发音的能力,更重要的是提高自己的普通话水平,锻炼自己的综合能力。师兄的课堂是非常难得,大家一起来学习吧&a…

云片短信php接口_php与阿里云短信接口接入

使用阿里云短信API,需要在控制台获取以下必要参数,其中需要自己手机验证官方审核多次,尤其审核需要保持耐心。1. accessKeyId 相当于你的个人账户密钥;2. accessKeySecret 与上是成对的;3. SignName 个人签名&#xff…

读中文_校友分享预告 | 在港中文读物理是什么体验?理科就业转商科有何经验心得?...

留学分享会总第233期港新地区校友分享实录商科《19年入读港大金融师姐带来最新香港就读体验与求职经验》《在香港大学读金融是怎样一种体验?》《在香港大学读会计是怎样一种体验?》《在香港大学读商业分析是怎样一种体验?》《在新加坡国立大学…

命令逐行显示_在LoadRunner中执行命令行程序之:popen()取代system()

》》》推荐阅读《《《1、性能测试学习笔记-场景设计2、性能测试的重要意义3、性能分析流程及方法4、应用系统性能调优之性能分析在LoadRunner中执行命令行程序之:popen()取代system() 我想大家应该都知道在LoadRunner可以使用函数system()来调用系统指令&#xf…

的使用go_使用 Go 开发 Prometheus Exporter

Exporter 是 Prometheus 监控的核心,如果你遇到一些应用不存在相应的 Exporter,那么我们可以自己去编写 Exporter。下面我们简单介绍如何使用 Golang 来快速编写一个 Exporter。1. 安装 GO 和依赖包按照 https://golang.org/doc/install 上的步骤进行安装…

flask 获取前端form内容_flask 项目中使用 bootstrapFileInput(进阶篇)

bootstrap 为 flask 使用人员提供了一个非常优美且有效的前端页面组件,但是完美之处还存在些许缺陷,比如文件的上传功能.而 bootstrap-fileinput 是基于 bootstrap 的控件,非常完美的填补了这个空缺.注意: 本文是基于 bootstrap-fileinput v4.4.2. github 地址: https://github…

phpstudy能安装不带mysql的么_装了phpstudy还需要装mysql吗

phpStudy是一个PHP调试环境的程序集成包。该程序包集成最新的ApachePHPMySQLphpMyAdminZendOptimizer,一次性安装,无须配置即可使用,是非常方便、好用的PHP调试环境。该程序不仅包括PHP调试环境,还包括了开发工具、开发手册等。对…

mysql 5.1.53_mysql 5.1.53免安装版的优化配备和精简

mysql 5.1.53免安装版的优化配置和精简[摘要]MySQL是一种关联数据库管理系统,关联数据库将数据保存在不同的表中,而不是将所有数据放在一个大仓库内。这样就增加了速度并提高了灵活性。本文介绍mysql-noinstall.zip免安装版的优化配置和精简。欢迎大家阅…

python牛顿法寻找极值_python使用梯度下降和牛顿法寻找Rosenbrock函数最小值实例...

Rosenbrock函数的定义如下:其函数图像如下:我分别使用梯度下降法和牛顿法做了寻找Rosenbrock函数的实验。梯度下降梯度下降的更新公式:图中蓝色的点为起点,橙色的曲线(实际上是折线)是寻找最小值点的轨迹,终点(最小值点…

mysql报11004_使用mysqli扩展技术查看服务器连接错误报告的方法

使用mysqli扩展技术查看服务器连接错误报告的方法作为PHP的黄金搭档MySQL数据库,在PHP项目开发过程中有着举足轻重的作用,这不仅因为MySQL是完全免费的,而且和PHP一样都是完全跨平台的。但在实际项目开发过程中,PHP与MySQL数据库产…

_Linux进程信号详解

信号是什么一个信号就是一条小消息,它通知进程系统中发生了一个某种类型的事件信号是多种多样的,并且一个信号对应一个事件,这样才能做到收到一个信号后,知道到底是一个什么事件,应该如何处理(但是要保证必…

java乘法表_Java中四种9*9乘法表的实现方式(附代码)

前言: 初学java,实现99乘法表是必学必会的内容。需求 : 分别写出上下左右,对应四个角的乘法表。思路: 可以先打印出*星星,形成一个直角三角形,然后再替换成乘法公式。代码如下:public class Demo {public static void main(String[] args) {for (int i 1; i <5 ; i) {for (…

excel表格不够怎么添加_Excel表格水印,你以前好象添加错了!

为excel表格添加水印&#xff0c;通常是使用插入-艺术字来完成。但这样做有一个很大的问题&#xff1a;如果表格有很多页&#xff0c;就需要添加N多个艺术字&#xff0c;太麻烦了。其实有一个超简单的批量设置方法&#xff0c;再多页也可以一次性设置。需要添加水印的Excel表格…

电脑手机wifi互传文件_安卓手机文件互传

怎么不借用第三方工具&#xff0c;安卓手机实现相互文件快传呢&#xff1f;苹果&#xff1a;首先不用多说&#xff0c;苹果可以使用Air Drop功能&#xff0c;苹果全家桶可以无障碍互传。长期以来&#xff0c;除开微信和QQ&#xff0c;不同品牌安卓手机互传文件依靠的途径只有蓝…

传统的线性降维方法效果不佳。_10分钟数据降维入门

1. 前言在硕士期间学习研究了数据降维相关的知识&#xff0c;阅读了一些相关文章&#xff0c;也断断续续在知乎上写了一些数据降维的入门级文章&#xff0c;收获了一些小伙伴的赞同&#xff0c;并在GitHub上开源了一些特征抽取算法的源代码&#xff0c;获得了的1.1kstar。因为在…

嵌入式开发网络配置——windows连热点,开发板和电脑网线直连

目录 电脑 WiFi 上网&#xff0c;开发板和电脑直连 使用场景 设置VMware虚拟机的网络配置 Ubuntu设置——版本18.04 ​编辑 windows设置 开发板设置 原因&#xff1a;虚拟机Linux移植可执行程序到开发板失败 最后发现虚拟机的Linuxping不通开发板 下面是我的解决方法 …

java ajax data_jquery ajax 方法中传递的data参数,如何在java类中获取

展开全部var params"username""1";$.ajax({type : "POST", //数据发送方式url : "../servlet/clearCache",dataType : "json", //接受数据格式 (这里有很多,常用的有html,xml,js,json)data:params,//datenew Date(), 要传递…

python环境变量配置_Python的安装、认识、配置环境变量以及helloworld打印的两种方式

Python的安装、认识、配置环境变量以及helloworld打印的两种方式 一、 安装和配置环境变量 首先我们去到Python的官方下载地址根据自己的电脑机型来下载最新的python安装包&#xff0c;网址是https://www.python.org/downloads/ 。 或者点击这里跳转 。 下载之后可以去https://…