o(∩_∩)o设置代理访问博客(三)o(∩_∩)o

增加定时执行功能

直接看代码实现:

# -*- coding:UTF-8 -*-import json
import random
import re
import threading
import time
from datetime import timedeltaimport requests
from bs4 import BeautifulSoup
from loguru import loggeruid = "qq_17328759"  # CSDN的IDhost = "https://blog.csdn.net"
headers = {'Accept'         : 'application/json, text/plain, */*','Accept-Language': 'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2','Referer'        : f'https://blog.csdn.net/{uid}','Connection'     : 'keep-alive','Sec-Fetch-Dest' : 'empty','Sec-Fetch-Mode' : 'cors','Sec-Fetch-Site' : 'same-origin'
}user_agent = ["Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 ""Safari/534.50","Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50","Mozilla/5.0 (Windows NT 10.0; WOW64; rv:38.0) Gecko/20100101 Firefox/38.0","Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; .NET4.0C; .NET4.0E; .NET CLR 2.0.50727; .NET CLR 3.0.30729; "".NET CLR 3.5.30729; InfoPath.3; rv:11.0) like Gecko","Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0)","Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0)","Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)","Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)","Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:2.0.1) Gecko/20100101 Firefox/4.0.1","Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1","Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; en) Presto/2.8.131 Version/11.11","Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11","Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 ""Safari/535.11","Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Maxthon 2.0)","Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; TencentTraveler 4.0)","Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)","Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; The World)","Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; SE 2.X MetaSr 1.0; SE 2.X MetaSr 1.0; .NET CLR ""2.0.50727; SE 2.X MetaSr 1.0)","Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; 360SE)","Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Avant Browser)",
]def parseIPList(url = "https://www.kuaidaili.com/free/inha/"):"""获取代理地址:param url:代理之地的网站  # "https://www.beesproxy.com/free"  "https://proxy.mimvp.com/freeopen":return: 代理的地址列表"""def search_by_re(string):IPs = []pattern = re.compile(r'const fpsList = (.*?);')re_result = pattern.search(string)if not re_result:return IPsips = json.loads(re_result.groups()[0])for ip_info in ips:IPs.append([ip_info['ip'], ip_info['port']])return IPsdef search_by_bs(string):IPs = []soup = BeautifulSoup(string)tds = soup.find_all("td")ip = ''port = ''for td in tds:if 'data-title' not in td.attrs:continueif 'IP' == td.attrs['data-title']:ip = td.textif "PORT" == td.attrs['data-title']:port = td.textIPs.append([ip, port])return IPsurl += f'{random.randint(1, 300)}/'headers_proxy = headers.copy()headers_proxy.update({ "User-Agent": random.choice(user_agent) })del headers_proxy['Referer']response = requests.get(url, headers=headers_proxy)IPs = []IPs.extend(search_by_bs(response.text))IPs.extend(search_by_re(response.text))return IPsdef articleId(uid):"""获取用户的博客列表:param uid: 用户的账号:return: 用户博客列表"""articleIds = []articleList = host + "/" + uidheaders.update({ "User-Agent": random.choice(user_agent) })response = requests.get(articleList, headers=headers).contentsoup = BeautifulSoup(response)articles = soup.find_all("article", attrs={ "class": "blog-list-box" })for article in articles:art_info = article.find_all('a', attrs={ "target": "_blank", 'href': True })# print(art_info[0].attrs['href'])articleIds.append(art_info[0].attrs['href'])return articleIdsdef articleIdByApi(uid, page = 1, size = 20):"""获取用户的博客列表:param uid: 用户的账号:return: 用户博客列表"""blogListUrl = f'{host}/community/home-api/v1/get-business-list'params = {"page"        : page,"size"        : size,"businessType": "lately","orderby"     : "","noMore"      : False,"year"        : "","month"       : "","username"    : uid}articleIds = []headers.update({ "User-Agent": random.choice(user_agent) })currentPage = pagewhile True:try:response = requests.get(blogListUrl, params=params, headers=headers).json()articleList = response.get("data", { }).get('list', [])logger.debug(f"获取第 {currentPage} 页博客 {articleList.__len__()} 篇")for article_info in articleList:articleIds.append(article_info.get('url'))if articleList.__len__() < size or articleList > 30:breakcurrentPage += 1params.update({ 'page': currentPage })except Exception as e:logger.error(f'获取 {uid} 博客列表失败:{e}')breaklogger.debug(f"{uid}{articleIds.__len__()} 篇博客")return articleIdsdef PV(IPs, uid, codes):s = requests.Session()count = 0url = host + "/{}/article/details/{}"while True:count += 1logger.info("正在进行第{}次访问\t".format(count))proxie = random.choice(IPs)logger.debug("{} -- {}".format(proxie, user_agent))s.proxies = { "http": "{}:{}".format(proxie[0], proxie[1]) }s.headers = headers.update({ "User-Agent": random.choice(user_agent) })for code in codes:articleUrl = code if 'http' in code else url.format(uid, code)html = s.get(articleUrl).textif not html:s.proxies = { "http": "{}:{}".format(proxie[0], proxie[1]) }continuesoup = BeautifulSoup(html, "html.parser")spans = soup.find_all(name="span", attrs={ "class": "read-count" })if spans.__len__() != 0:logger.debug(f"{code} 当前阅读量:{spans[0].text}")time.sleep(random.randint(1, 35))class addReadNum(threading.Thread):def __init__(self, IPs, uid, articleIds):threading.Thread.__init__(self)self.IPs = IPsself.uid = uidself.articleIds = articleIdsdef run(self):PV(self.IPs, self.uid, self.articleIds)def demo_schedule():articleIds = articleIdByApi(uid)IPs = parseIPList()PV(IPs, uid, articleIds)import scheduleschedule.every().hours.at(':00').do(demo_schedule).until(timedelta(minutes=3))  # 每个整点开始执行,执行三分钟后停止schedule.run_all()while True:schedule.run_pending()  # 运行所有可以运行的任务time.sleep(30)

补充定时任务配置:


def demo_schedule():articleIds = articleIdByApi(uid)IPs = parseIPList()PV(IPs, uid, articleIds)import scheduleschedule.every().hours.at(':00').do(demo_schedule).until(timedelta(minutes=3))  # 每个整点开始执行,执行三分钟后停止schedule.run_all()while True:schedule.run_pending()  # 运行所有可以运行的任务time.sleep(30)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/804847.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

离心机租赁,冷冻离心机租借,实验室离心机租售,大容量离心机以租代买

离心机租赁,冷冻离心机租借,实验室离心机租售,大容量离心机以租代买&#xff0c;满足广大客户对离心的租赁与购买需求! 服务优势 1、以租代买&#xff1a;租期达到一定期限&#xff0c;租金抵扣货款&#xff1b; 2、快速上门&#xff1a;2分钟响应&#xff0c;同城12小时内到…

短剧在线搜索PHP网站源码

源码简介 短剧在线搜索PHP网站源码&#xff0c;自带本地数据库500数据&#xff0c;共有6000短剧视频&#xff0c;与短剧猫一样。 搭建环境 PHP 7.3 Mysql 5.6 安装教程 1.上传源码到网站目录中 2.修改【admin.php】中&#xff0c; $username ‘后台登录账号’; $passwor…

【C++】lambda表达式

目录 一、lambda表达式1.1 C98中的例子1.2 lambda表达式语法1.3 函数对象与lambda表达式 一、lambda表达式 1.1 C98中的例子 如果要对一个数据集合进行排序&#xff0c;可以使用sort函数&#xff1a; int main() {int array[] { 4,1,8,5,3,7,0,9,2,6 };// 默认按照小于比较…

Vue-Router入门

现在的前后端分离项目&#xff0c;后端只管数据传递&#xff0c;视图跳转的活交由前端来干了&#xff0c;vue-router就是专门来干这个活的&#xff0c;它可以让页面跳转到指定组件 组件是可复用的 Vue 实例, 把一些公共的模块抽取出来&#xff0c;然后写成单独的的工具组件或者…

面对DDOS攻击,有哪些解决办法

随着互联网带宽的持续增长以及DDOS黑客技术的发展&#xff0c;DDOS拒绝服务攻击的实施变得愈发容易。商业竞争、打击报复、网络敲诈等多种因素&#xff0c;各行各业的用户都曾受到DDOS攻击的威胁。 一旦遭受到DDOS攻击&#xff0c;随之而来的就是业务宕机&#xff0c;用户无法…

44.网络游戏逆向分析与漏洞攻防-角色管理功能通信分析-角色创建服务器反馈数据包分析

免责声明&#xff1a;内容仅供学习参考&#xff0c;请合法利用知识&#xff0c;禁止进行违法犯罪活动&#xff01; 如果看不懂、不知道现在做的什么&#xff0c;那就跟着做完看效果 现在的代码都是依据数据包来写的&#xff0c;如果看不懂代码&#xff0c;就说明没看懂数据包…

MySQL 慢查询优化案例

​>优质博文&#xff1a;IT-BLOG-CN 一、慢查询优化基本步骤 【1】先运行看看是否真的很慢&#xff0c;注意设置SQL_NO_CACHE&#xff08;查询时不使用缓存&#xff09;&#xff1b; 【2】where条件单表查&#xff0c;锁定最小返回记录表。这句话的意思是把查询语句的 whe…

转让北京装饰装修二级和建筑幕墙施工二级流程和条件

我公司可以帮您快速办理北京市各类建筑姿质申请&#xff0c;也有现成的姿质转让&#xff0c;新申请建筑姿质要求比较高&#xff0c;但是对于企业来说&#xff0c;承接模板脚手架工程也是需要具备姿质的&#xff0c;该姿质也就是模板脚手架姿质&#xff0c;那么对于企业想要申请…

Java实现线程同步的几种方式

synchronized 特点: 简单易用&#xff1a; synchronized 关键字的使用非常简单&#xff0c;它可以直接应用于方法或代码块上。对于对象和类的同步方法&#xff0c;JVM负责加锁和释放锁&#xff0c;开发者不需要手动操作。自动释放锁&#xff1a; 当synchronized方法或代码块执…

基于Java+SpringBoot+Vue幼儿园管理系统(源码+文档+部署+讲解)

一.系统概述 随着信息时代的来临&#xff0c;过去的传统管理方式缺点逐渐暴露&#xff0c;对过去的传统管理方式的缺点进行分析&#xff0c;采取计算机方式构建幼儿园管理系统。本文通过课题背景、课题目的及意义相关技术&#xff0c;提出了一种教 学生信息、学生考勤、健康记录…

Python map遍历

在Python中&#xff0c;map 函数是一个内置函数&#xff0c;它将指定的函数应用于给定序列&#xff08;如列表、元组等&#xff09;的每个项&#xff0c;并返回一个迭代器&#xff0c;该迭代器包含所有项经过指定函数处理后的结果。 ### map 函数的基本用法 map 函数的语法如…

centos如何卸载mysql

在CentOS系统中卸载MySQL&#xff0c;你可以遵循以下步骤&#xff1a; 停止MySQL服务&#xff1a; 1sudo systemctl stop mysqld 列出已安装的MySQL相关组件&#xff1a; 1sudo yum list installed | grep mysql 卸载所有MySQL相关的RPM包&#xff1a; 1sudo yum remove mysq…

PM2+Linux部署nuxt.js

PM2Linux部署nuxt.js 开始我使用了docker部署我的springboot项目&#xff0c;链接在这里&#xff0c;因为我是前后端分离项目&#xff0c;前端使用的nuxt.js框架&#xff0c;所以需要另外部署一下项目&#xff0c;以下是部署流程 1.将本地的nuxt项目打包 npm run build #生成…

Fecify 商品标签功能

关于商品标签 商品标签是指商家可以在展示商品时&#xff0c;自己创建一个自定义标签&#xff0c;可自定义某个关键词或短语。这样顾客在浏览商城时&#xff0c;只需要通过标签就能看到更直观的展示信息。 商品标签可以按照用户的属性、行为、偏好等进行分类&#xff0c;标签要…

传输大咖22|如何利用ProtoBuf实现高效的数据传输?

在今日信息技术日新月异的时代&#xff0c;数据传输的速度与安全性无疑成为了软件开发中的重中之重。无论是微服务架构下的服务间交流&#xff0c;还是客户端与服务器间的数据互动&#xff0c;寻求一种既高效又稳妥的数据传输方式已成为共识。尽管传统的数据格式&#xff0c;如…

坚持10天做完Python入门编程100题第二天

坚持十天做完Python入门编程100题第二天 第8题 列表的排序第9题 字典的创建第10题第11题 对字典的值求和第12题 字典推导式第13题 打印小写字母a~z第14题 计算1-100之间的偶数之和 第8题 列表的排序 列表num_list [3, 1, 5, 9, 15, 2, 7]&#xff0c;如和将列表按照从大到小的…

水务行业如何实现数字化转型实现智能化管理

水务行业在当下已经迈入了新的发展阶段&#xff0c;行业内增大了信息化、数字化的探索&#xff0c;尤其是智能化技术出现以后&#xff0c;智能水务概念的提出使得水务数字化转型成为可能。但我国水务行业经历了漫长的发展时期&#xff0c;在很长一段时间内因为存在发展思路、技…

骨传导耳机怎么选?这五款骨传导耳机性能好、配置高,跟着买不出错!

如今&#xff0c;骨传导耳机作为一种创意十足的蓝牙耳机&#xff0c;正在逐渐走入千家万户&#xff0c;成为最受欢迎的耳机款式。然而&#xff0c;随着骨传导耳机的热度增加&#xff0c;市面上开始出现各式各样的骨传导耳机品牌&#xff0c;面对琳琅满目的骨传导耳机品牌&#…

ECharts介绍

ECharts&#xff0c;全称Enterprise Charts&#xff0c;是一款基于JavaScript的数据可视化图表库。它以直观、生动、可交互以及可个性化定制的特点&#xff0c;为数据可视化提供了强有力的工具。ECharts最初由百度团队开源&#xff0c;后于2018年初捐赠给Apache基金会&#xff…

基于SpringBoot的“垃圾分类网站”的设计与实现(源码+数据库+文档+PPT)

基于SpringBoot的“垃圾分类网站”的设计与实现&#xff08;源码数据库文档PPT) 开发语言&#xff1a;Java 数据库&#xff1a;MySQL 技术&#xff1a;SpringBoot 工具&#xff1a;IDEA/Ecilpse、Navicat、Maven 系统展示 系统功能结构图 系统功能界面图 用户登录、用户注…