java微博爬虫

微博爬取要做到每日百万级的数据量,需要解决很多问题。


 

1.springboot自带@Scheduled注解是一个轻量级的quartz,可以完成定时任务。只需要在运行方法上加一个@Scheduled注解即可。

该注解有许多属性值

initiaDelay 从程序开始延长一定时间后首次执行。

fixedRate  首次后,该方法固定执行间隔。

cron 定时表达式。

等等

如果想要并发编程,在要执行定时任务的类上加注解@EnableAsync,在方法上加@Async。

接下来要设置线程池的大小。

package com.cnxunao.weibospider.configuration;import org.springframework.context.annotation.Bean;
import org.springframework.context.annotation.Configuration;
import org.springframework.scheduling.annotation.EnableScheduling;
import org.springframework.scheduling.annotation.SchedulingConfigurer;
import org.springframework.scheduling.config.ScheduledTaskRegistrar;import java.util.concurrent.Executor;
import java.util.concurrent.Executors;@Configuration
@EnableScheduling
public class ScheduleConfig implements SchedulingConfigurer {@Overridepublic void configureTasks(ScheduledTaskRegistrar taskRegistrar) {taskRegistrar.setScheduler(taskExecutor());}/** 并行执行*/@Bean(name = "TaskPool")public Executor taskExecutor() {return Executors.newScheduledThreadPool(5);}}

最后在启动类上加一个注解

 


 

2.微博的反爬机制还是蛮严格的,亲自试验让代理服务器每6秒爬取一次是很稳定的,不会被封。

也可以建立一个user_agent池用于反爬。(都是亲测可用的)

//user_Agent池private static String[] userAgents = {"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.89 Safari/537.36","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.835.163 Safari/535.1","Mozilla/5.0 (Windows NT 6.1; WOW64; rv:6.0) Gecko/20100101 Firefox/6.0","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50","Opera/9.80 (Windows NT 6.1; U; zh-cn) Presto/2.9.168 Version/11.50","Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0; .NET CLR 2.0.50727; SLCC2; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.3; .NET4.0C; Tablet PC 2.0; .NET4.0E)","Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; InfoPath.3)","Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; GTB7.0)","Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)","Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)","Mozilla/5.0 (Windows; U; Windows NT 6.1; ) AppleWebKit/534.12 (KHTML, like Gecko) Maxthon/3.0 Safari/534.12","Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/534.3 (KHTML, like Gecko) Chrome/6.0.472.33 Safari/534.3 SE 2.X MetaSr 1.0","Mozilla/5.0 (Windows NT 6.1) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/13.0.782.41 Safari/535.1 QQBrowser/6.9.11079.201","Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0)"};
//随机获取总数为14useragent池中的一个
private String userAgent = userAgents[random.nextInt(14)];

注:随机获取1-13的整数 random.nextInt(13)+1 。13位容量,1位初始值。

还可以采用购买大量微博账号(很便宜)模拟登陆后,获取cookie,然后构建cookie池的方法。


 

3.购买代理ip的话,需要调用商家的API来获取代理,具体方法商家官网都有开发者文档,代码有些简单这里就不发出来了。

 如果使用springboot的话,自定义配置可以使用@Value来进行赋值。

 application.properties

  java文件

 自动填充效果


 

4.java程序运行时间长后会变慢,可以利用一些设计模式来解决性能的问题,合理使用虚拟机内存空间,即使删除不用的对象。我也是边学边做,现在还没有完全解决,之后会更新。


5.并发程序有时会造成读写数据的错乱问题,需要了解一些并发编程的规范。还有一种办法,把需要共享的数据放在redis里,来解决这类问题。


6.如果你觉得微博关键字的爬取只能爬取首页太少,可以在模拟登录后保存cookie进行爬取,可以爬到所有的相关页面。


7.编程中日志是很重要的,是反应情况,分析问题,解决问题的关键,一定要在适当的程序位置加一些日志信息。下图是我写日志的一种方法。

 

转载于:https://www.cnblogs.com/Post-90sDachenchen/p/11104291.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/483040.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2100年彻底颠覆世界的“十大未来科技”

来源:于硅谷智库 科学家们对2100年前的人类生活进行了十大预测,如果这些预测能够变成现实的话,将会让世界发生翻天覆地的变化。1能上网的隐形眼镜出现时间:2030年前预测者:来自华盛顿大学西雅图分校的巴巴克A帕尔维兹教…

智能如何产生,这仍然是个问题

来源:孙学军科学网博客链接地址:https://blog.sciencenet.cn/blog-41174-1316772.html本文的智能只是生物系统工作原理层面,而不是意识层面的,无论是工作原理,还是大脑意识层面,今天的科学仍然没有给出理想…

spring学习笔记05-IOC常用注解(二)

文章目录2.3 关于 Spring 注解和 XML 的选择问题2.4spring 管理对象细节2.5spring 的纯注解配置2.5.1 待改造的问题2.5.2 新注解说明2.5.2.1 Configuration2.5.2.2 ComponentScan2.5.2.3 Bean2.5.2.4 PropertySource2.5.2.5 Import2.5.2.6 通过注解获取容器:2.3 关于…

一文掌握明年物联网传感器市场!2022中国AIoT产业全景图谱报告新鲜出炉

来源:传感器专家网物联网产业是传感器应用最广泛的领域之一,研发新型传感器,做传感器市场,都不能不考虑物联网产业的需求。2021年随着COVID-19 病毒的存在已常态化,防疫抗疫进入了拉锯阶段;波及全球的“芯片…

EUV光刻机内部揭秘!

转载自: ittbank来源:半导体行业观察PatrickWhelan正在透过他的洁净室服面板凝视着事情的进展。在他面前是一块闪闪发光的玻璃,大约有一个烤箱那么大,上面刻有许多挖出的部分以减轻重量,看起来像一个外星图腾。Whelan 的团队正在将…

数据结构与算法——搜索

文章目录1.内容概述2.岛屿数量2.1 题目描述2.2 DFS深度搜索算法思路2.3 BFS宽度搜索算法思路2.4 C代码实现3.单词接龙3.1 题目描述3.2 算法思路3.3 C代码实现4.单词接龙 II4.1 题目描述4.2 算法思路5.火柴拼正方形5.1 题目描述5.2 算法思路5.3 代码实现5.4 算法思路25.5 代码实…

小程序基础能力~网络

(1)网络-使用说明 网络 在小程序/小游戏中使用网络相关的 API 时,需要注意下列问题,请开发者提前了解。 1. 服务器域名配置 每个微信小程序需要事先设置通讯域名,小程序只可以跟指定的域名与进行网络通信。包括普通 HT…

mybatis学习笔记-02-第一个mybatis程序

该视频为狂神说java视频配套笔记(博主自己手打223,日后做个参考223),b站连接:Mybatis最新完整教程IDEA版【通俗易懂】-02-第一个mybatis程序) 文章目录2.第一个mybatis程序2.1搭建环境2.2 创建一个模块2.3编写代码2.4测…

徐波所长专访 | 人工智能:从“作坊式”走向“工业化”新时代

来源:人民网人工智能创新不断 “一体两翼”快速发展人民网:当前,人工智能技术创新不断,应用层出不穷。它究竟走到了哪一步?能否谈谈您是如何看待我国人工智能技术发展现状的?徐波:人工智能是一个…

linux——线程(1)

文章目录1.线程概念1.1 什么是线程1.2 线程和进程区别1.3 线程实现原理1.4 三级映射1.5 线程共享资源1.6 线程非共享资源1.7 线程优、缺点2.线程控制原语2.1 pthread_self 函数2.2 pthread_create 函数3.线程与共享3.1 线程共享全局变量4.线程退出4.1 pthread_exit 函数1.线程概…

Redis压缩列表原理与应用分析

摘要 Redis是一款著名的key-value内存数据库软件,同时也是一款卓越的数据结构服务软件。它支持字符串、列表、哈希表、集合、有序集合五种数据结构类型,同时每种数据结构类型针对不同的应用场景又支持不同的编码方式。这篇文章主要介绍压缩列表编码&…

Science公布2021年度十大科学突破,AI这项前所未有的突破上榜

来源: 学术头条撰文:朱哼哼编审:王哈哈排版:李雪薇2021 年 11 月 17 日,Science 杂志公布了 2021 年的年度科学突破榜单,AlphaFold 和 RoseTTA-fold 两种基于人工智能预测蛋白质结构的技术位列榜首。除此之…

OpenAI教GPT-3学会上网,「全知全能」的AI模型上线了

来源:机器学习研究组订阅它被命名为 WebGPT,OpenAI 认为浏览网页的方式提高了 AI 解答问题的准确性。如果 AI 学会上网,那么它就拥有了无限获取知识的方式,之后会发生什么就不太好预测了。于是著名 AI 研究机构 OpenAI 教那个开启…

Hadoop(2):常见的MapReduce[在Ubuntu中运行!]

1 以词频统计为例子介绍 mapreduce怎么写出来的 弄清楚MapReduce的各个过程&#xff1a; 将文件输入后&#xff0c;返回的<k1,v1>代表的含义是&#xff1a;k1表示偏移量&#xff0c;即v1的第一个字母在文件中的索引&#xff08;从0开始数的&#xff09;&#xff1b;v1表…

springboot学习笔记-01-springboot-helloworld的编写以及原理初步了解(自动装配)

文章目录原理初探主程序关于spring boot&#xff0c;谈谈你的理解&#xff1a;微服务阶段原理初探 pom.xml spring-boot-dependencies&#xff1a;核心依赖在父工程中&#xff01;我们在写或者引入一些springboot依赖的时候&#xff0c;不需要指定版本&#xff0c;就因为有这…

2022年:机器人技术的重大革命

来源&#xff1a;ScienceAI编辑&#xff1a;萝卜皮一段时间以来&#xff0c;跟踪机器人技术发展的人已经注意到该领域的一场无声革命。虽然自动驾驶汽车占据了所有的头条新闻&#xff0c;但人工智能、机器视觉和机器学习的交叉领域正在迅速成为下一阶段机器人技术的基础。通过将…

陈天奇高赞文章:新一代深度学习编译技术变革和展望

来源&#xff1a;机器之心作者&#xff1a;陈天奇陈天奇是机器学习领域著名的青年华人学者之一&#xff0c;本科毕业于上海交通大学ACM班&#xff0c;博士毕业于华盛顿大学计算机系&#xff0c;研究方向为大规模机器学习。在本文中&#xff0c;陈天奇回答了目前深度学习编译技术…

操作系统欢乐笔记-01-带你推开操作系统的大门(雾)

B站-操作系统-哈尔并工业大学-劝退警告223 文章目录1.什么是操作系统&#xff1f;什么是操作系统&#xff1f;小目标&#xff1f;2.揭开钢琴的盖子熟悉的win开机画面从白纸到图灵机冯-诺依曼一拍脑袋瓜&#xff0c;他说摁下开机键这段不是rap 223 劝退警告emmmmm1.什么是操作系…

2022年值得关注的22项新兴技术

来源&#xff1a;参考消息网英国《经济学人》网站11月8日发表题为《下一个是什么&#xff1f;2022年值得关注的22项新兴技术》的文章。在文章列举的22项新技术中&#xff0c;既有今年大热的“元宇宙”、太空旅游、脑机接口&#xff0c;也有备受期待的量子计算、艾滋病病毒疫苗……

分别安装搭建lamp服务环境

一、 分别安装搭建lamp服务环境 准备工作&#xff1a; 1、配置防火墙&#xff0c;开启80端口、3306端口vi /etc/sysconfig/iptables-A INPUT -m state –state NEW -m tcp -p tcp –dport 80 -j ACCEPT #允许80端口通过防火墙-A INPUT -m state –state NEW -m tcp -p tcp –dp…