java微博模拟登陆_java 模拟登录新浪微博(通过cookie)

这几天一直在研究新浪微博的爬虫,发现爬取微博的数据首先要登录。本来打算是通过账号和密码模拟浏览器登录。但是现在微博的登录机制比较复杂。通过账号密码还没有登录成功QAQ。所以就先记录下,通过cookie直接访问自己的微博主页。

微博登录的认证过程

微博登录的细节在其他的博客里已经有了详细的介绍。大概就是用户输入账号和密码后与服务器产生几次会话。若认证成功后,微博的服务器会返回给浏览器一个cookie。在之后访问微博的其他内容时,通过发送这个cookie就能正常访问微博了。所以用过cookie访问微博,过程就简化为了获取cookie,然后通过程序模拟浏览器访问微博首页。

获取微博的cookie

通过抓包软件或浏览器自带的调试工具都可以抓取网页的cookie。本文使用的是火狐浏览器的HttpFox 插件来获取微博的cookie。

1,打开微博首页,打开HttpFox

337b0f56064aa7f6ca02fda28821f423.png

2,输入用户名和密码,勾选“记住我”,点击登录。点击登录后我们可以看到HttpFox下产生了很多的URL。进入主页后在HTTPFox中找到你主页对应的URL,如下图:

a6cf4f5fd23fd90430e64cba7c308f89.png

点击主页的URL后,我们可以看见左下方的一些信息。包括“Headers”,“Cookies”等。

3,在“Headers”中可以看到有一条“Cookie”的信息。这个就是我们所需要的cookie了。点击右键保存cookie。

至此,就获取了我们登录时所要的cookie了!

代码实现

由于我们是直接通过cookie进行的登录。所以少了很多认证的过程。直接使用HttpClient的相关包,带上之前获取的cookie就可以访问个人首页。获取了首页,我们就可以通过正则表达式来分析微博数据了。

import java.io.IOException;

import java.net.URI;

import java.net.URISyntaxException;

import org.apache.http.HttpEntity;

import org.apache.http.HttpResponse;

import org.apache.http.client.ClientProtocolException;

import org.apache.http.client.HttpClient;

import org.apache.http.client.methods.HttpGet;

import org.apache.http.client.methods.HttpPost;

import org.apache.http.config.Registry;

import org.apache.http.config.RegistryBuilder;

import org.apache.http.cookie.CookieSpec;

import org.apache.http.cookie.CookieSpecProvider;

import org.apache.http.impl.client.BasicCookieStore;

import org.apache.http.impl.client.HttpClients;

import org.apache.http.impl.cookie.DefaultCookieSpec;

import org.apache.http.message.BasicHeader;

import org.apache.http.protocol.HttpContext;

import org.apache.http.util.EntityUtils;

/**

*

*

*@author zkw

*

*/

public class cookieLogin {

private HttpClient client;

private HttpPost post;

private HttpGet get;

private BasicCookieStore cookieStore;

public cookieLogin() {

//cookie策略,不设置会拒绝cookie rejected,设置策略保存cookie信息

cookieStore = new BasicCookieStore();

CookieSpecProvider myCookie = new CookieSpecProvider() {

public CookieSpec create(HttpContext context) {

return new DefaultCookieSpec();

}

};

Registry rg = RegistryBuilder. create().register("myCookie", myCookie)

.build();

client = HttpClients.custom().setDefaultCookieStore(cookieStore).setDefaultCookieSpecRegistry(rg).build();

get = new HttpGet();

post = new HttpPost();

}

public void Login() throws ClientProtocolException, IOException, URISyntaxException {

String LoginUrl = "你的微博主页网址";

get.setURI(new URI(LoginUrl));

get.addHeader("Host", "weibo.com");

get.addHeader("User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:45.0) Gecko/20100101 Firefox/45.0");

get.addHeader("Accept", "*/*");

get.addHeader("Accept-Language", "zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3");

get.addHeader("Accept-Encoding", "gzip, deflate");

get.addHeader("Referer", "http://weibo.com/");

get.addHeader(new BasicHeader("Cookie", "上述获取的cookie值"));

HttpResponse resp = client.execute(get);

HttpEntity entity = resp.getEntity();

String cont = EntityUtils.toString(entity);

System.out.println("获取的微博内容:" + cont);

}

public HttpClient getClient() {

return client;

}

public void setClient(HttpClient client) {

this.client = client;

}

public HttpPost getPost() {

return post;

}

public void setPost(HttpPost post) {

this.post = post;

}

public HttpGet getGet() {

return get;

}

public void setGet(HttpGet get) {

this.get = get;

}

public BasicCookieStore getCookieStore() {

return cookieStore;

}

public void setCookieStore(BasicCookieStore cookieStore) {

this.cookieStore = cookieStore;

}

public static void main(String[] args) throws ClientProtocolException, IOException, URISyntaxException {

new cookieLogin().Login();

}

}

总结

通过cookie登录微博是一种快捷方式,但是存在不少问题。所以博主还在研究微博账号认证过程,希望过几天能有所突破QAQ。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/260336.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

硬盘结构,主引导记录MBR,硬盘分区表DPT,主分区、扩展分区和逻辑分区,电脑启动过程...

filex的文件系统看的云里雾里,还是先总结下FAT的一些基本知识吧。硬盘结构硬盘有很多盘片组成,每个盘片的每个面都有一个读写磁头。如果有N个盘片。就有2N个面,对应2N个磁头(Heads),从0、1、2开始编号。每个盘片的半径均为固定值R…

最全面 Nginx 入门教程 + 常用配置解析

转自 http://blog.csdn.net/shootyou/article/details/6093562 Nginx介绍和安装 一个简单的配置文件 模块介绍 常用场景配置 进阶内容 参考资料 Nginx介绍和安装 Nginx是一个自由、开源、高性能及轻量级的HTTP服务器及反转代理服务器, 其性能与IMAP/POP3代理服务器…

linux 客户机中不支持 unity_婚姻中的不理解,来源于夫妻双方情感支持的不同

很多女性在婚姻中往往觉得无法得到丈夫的理解,当遇到一些生活或者工作上的问题的时候,她们想要在情感上得到丈夫的支持和理解。但是很多丈夫对此可能并不了解和理解,更倾向于用理性帮助妻子解决问题。而女性所需要的帮助可能并不是解决问题的…

Linux中使用crontab命令启用自定义定时任务

一 简介Linux下的任务调度分为两类,系统任务调度和用户任务调度系统任务调度:系统需要定期执行的任务,比如重启、日志清理等,其配置文件是:/etc/crontab用户任务调度:某个用户需要定期执行的任务。用户可以…

java 循环标记_深入浅析Java 循环中标签的作用

continue和break可以改变循环的执行流程,但在多重循环中,这两条语句无法直接从内层循环跳转到外层循环。在C语言中,可以通过goto语句实现多重循环的跳转,但在非循环结构中使用goto语句会使程序的结构紊乱,可读性变差。…

JS,Jquery 调用 C#WebService

1&#xff0c;需要在服务下面把代码的注释去掉 // 若要允许使用 ASP.NET AJAX 从脚本中调用此 Web 服务&#xff0c;请取消对下行的注释。   //[System.Web.Script.Services.ScriptService] 2,JS 调用方法如下 var request <?xml version"1.0" encoding"…

iOS tabview 适配问题

ios7的UITableView实现ios6的圆角效果 iOS7 UITableView做成类似iOS6风格 在iOS7的时候我们会发现cell的默认线条会向右偏移&#xff0c;使左边空出了一些位置&#xff0c;这时候我们可以调用如下的方法来解决。这样我们的cell就会和iOS6前的一样铺满整个宽度了。 if ([tableVi…

PHP学习总结(14)——PHP入门篇之常用运算符

一、什么是运算符什么是运算符&#xff1f;运算符是告诉PHP做相关运算的标识符号。例如&#xff0c;你需要计算123乘以456等于多少&#xff0c;这时候就需要一个符号&#xff0c;告诉服务器&#xff0c;你需要做乘法运算。PHP中的运算符有哪些&#xff1f;PHP运算符一般分为算术…

百度时间显示_文章的发布时间对百度优化网站重要吗

文章的发布时间对百度优化网站重要吗&#xff1f;这个问题&#xff0c;相信很多初做网站优化的萌新朋友都会问到&#xff0c;以小匠个人的经历来分享这个问题的经验&#xff0c;小匠认为&#xff0c;文章的发布时间对优化网站是非常重要的&#xff0c;下面小匠将从实际经历来给…

循环链表解决约瑟夫环问题

约瑟夫环问题可以简单的使用数组的方式实现&#xff0c;但是现在我使用循环链表的方法来实现&#xff0c;因为上午看到一道面试题规定使用循环链表解决约瑟夫环问题。 什么是约瑟夫环&#xff1f; “约瑟夫环是一个数学的应用问题&#xff1a;已知n个人&#xff08;以编号1&…

java 什么时候进行垃圾回收_java什么时候进行垃圾回收,垃圾回收的执行流程

java的垃圾回收分为三个区域新生代 老年代 永久代一个对象实例化时 先去看伊甸园有没有足够的空间如果有 不进行垃圾回收 ,对象直接在伊甸园存储.如果伊甸园内存已满,会进行一次minor gc然后再进行判断伊甸园中的内存是否足够如果不足 则去看存活区的内存是否足够.如果内存足够…

常用的webservice接口

商业和贸易&#xff1a; 1、股票行情数据 WEB 服务&#xff08;支持香港、深圳、上海基金、债券和股票&#xff1b;支持多股票同时查询&#xff09; Endpoint: http://webservice.webxml.com.cn/WebServices/StockInfoWS.asmx Disco: http://webservice.webxml.com.cn/WebServ…

基于HTML5 Canvas 实现矢量工控风机叶轮旋转

之前在拓扑上的应用都是些静态的图元&#xff0c;今天我们将在拓扑上设计一个会动的图元——叶轮旋转。 先看看最后我们实现的效果&#xff1a;http://www.hightopo.com/demo/fan/index.html 我们先来看下这个叶轮模型长什么样 从模型上看&#xff0c;这个叶轮模型有三个叶片&a…

java 并发模型总类_java并发编程系列-内存模型基础

java线程之间的通信对程序开发人员是完全透明的&#xff0c;内存的可见性问题很容易困扰很多开发人员。本篇博文将揭开java内存模型的神秘面纱&#xff0c;来看看内存模型到底是怎样的。并发编程模型的分类并发编程中需要处理的两个关键问题&#xff1a;线程之间如何通信线程之…

python调用java的jar包_python调用java的jar包报错127

该楼层疑似违规已被系统折叠 隐藏此楼查看此楼最近在弄python需要调用到Java的jar包&#xff0c;按照网上的教程走&#xff0c;最后总是报错No matching overloads found for [init in find. at native\common\jp_method.cpp:127Java&#xff1a;package aes;import com.sun.cr…

iphone、Android接收System.Net.Mail发的邮件标题乱码

参考地址&#xff1a;http://blog.csdn.net/whowhen21/article/details/5959225 在做项目时候&#xff0c;用到.Net的System.Net.Mail发送邮件&#xff0c;经测试&#xff0c;发现如果标题过长&#xff0c;收到的就会是乱码了(那种Base64格式的数据)&#xff0c;几经测试&#…

数据仓库与数据挖掘的一些基本概念

下面内容摘自互联网并作了整理。 名词&#xff1a; BI(Business Intelligence)&#xff1a;商业智能&#xff0c; DW(Data Warehouse)&#xff1a;数据仓库&#xff0c;详见正文Q1部分。 OLTP(On-Line Transaction Processing)&#xff1a;联机事务处理 也称为面向交易的处理系…

ATS读小文件(内存命中)

一个资源根据其大小可能会存在多个存储对象中。如果足够小&#xff08;连同doc结构的大小小于一个fragment的size&#xff09;&#xff0c;连同这个资源的meta信息一起存储在一个doc中。如果比较大&#xff0c;第一个存储对象保存资源的meta信息&#xff0c;后面跟着若干个frag…

python 加密解密_python加密解密

EncodeFile(python2.7加密)# -*- coding: utf8 -*-import base64import sysreload(sys)sys.setdefaultencoding(utf8)inFilesys.argv[1]try:fin open(inFile, "rb")fout open(inFile".txt", "w")base64.encode(fin, fout)passexcept Exception…

java double 两位_java double 保留两位小数

java保留两位小数问题&#xff1a;方式一&#xff1a;四舍五入double f 111231.5585;BigDecimal b new BigDecimal(f);double f1 b.setScale(2, BigDecimal.ROUND_HALF_UP).doubleValue();保留两位小数---------------------------------------------…