python打开浏览器后带cookie_Python爬虫使用浏览器的cookies:browsercookie

很多用Python的人可能都写过网络爬虫,自动化获取网络数据确实是一件令人愉悦的事情,而Python很好的帮助我们达到这种愉悦。然而,爬虫经常要碰到各种登录、验证的阻挠,让人灰心丧气(网站:天天碰到各种各样的爬虫抓我们网站,也很让人灰心丧气~)。爬虫和反爬虫就是一个猫和老鼠的游戏,道高一尺魔高一丈,两者反复纠缠。

由于http协议的无状态性,登录验证都是通过传递cookies来实现的。通过浏览器登录一次,登录信息的cookie是就会被浏览器保存下来。下次再打开该网站时,浏览器自动带上保存的cookies,只有cookies还未过期,对于网站来说你就还是登录状态的。

browsercookie模块就是这样一个从浏览器提取保存的cookies的工具。它是一个很有用的爬虫工具,通过加载你浏览器的cookies到一个cookiejar对象里面,让你轻松下载需要登录的网页内容。

安装

pip install browsercookie

在Windows系统中,内置的sqlite模块在加载FireFox数据库时会抛出错误。需要更新sqlite的版本:

pip install pysqlite

使用方法

下面是从网页提取标题的例子:>>> import re>>> get_title = lambda html: re.findall('

(.*?)', html, flags=re.DOTALL)[0].strip()

下面是未登录状况下下载得到的标题:>>> import urllib2>>> url = ' >>> public_html = urllib2.urlopen(url).read()>>> get_title(public_html)'Git and Mercurial code management for teams'

接下来使用browsercookie从登录过Bitbucket的FireFox里面获取cookie再下载:>>> import browsercookie>>> cj = browsercookie.firefox()>>> opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))>>> login_html = opener.open(url).read()>>> get_title(login_html)'richardpenman / home — Bitbucket'

上面是Python2的代码,再试试 Python3:>>> import urllib.request>>> public_html = urllib.request.urlopen(url).read()>>> opener = urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cj))

你可以看到你的用户名出现在title里面了,说明browsercookie模块成功从FireFox加载了cookies。

下面是使用requests的例子,这次我们从Chrome里面加载cookies,当然你需要事先用Chrome登录Bitbucket:>>> import requests>>> cj = browsercookie.chrome()>>> r = requests.get(url, cookies=cj)>>> get_title(r.content)'richardpenman / home — Bitbucket'

如果你不知道或不关心那个浏览器有你需要的cookies,你可以这样操作:>>> cj = browsercookie.load()>>> r = requests.get(url, cookies=cj)>>> get_title(r.content)'richardpenman / home — Bitbucket'

支持

目前,该模块支持以下平台:

Chrome: Linux, OSX, Windows

Firefox: Linux, OSX, Windows

目前该模块测试过的浏览器版本还不是很多,你使用过程中可能会遇到问题,可以向作者提交问题:

https://bitbucket.org/richardpenman/browsercookie/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/373990.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

VS插件开发

参考资料: VS插件开发 - 个性化VS IDE编辑器 自己动手编写一个VS插件(一) VS Addin插件基本开发入门 VS Addin插件配置、部署 转载于:https://www.cnblogs.com/wangwangfei/p/5830081.html

使用AspectJ,Javassist和Java Proxy进行代码注入的实用介绍

静态地或在运行时将代码片段注入已编译的类和方法中的功能可能会很有帮助。 这尤其适用于在没有源代码的第三方库中或在无法使用调试器或探查器的环境中对问题进行故障排除。 代码注入对于处理涉及整个应用程序的问题(例如性能监视)也很有用。 以这种方式…

Java中的变量

java类的成员变量有两种:一种是被static关键字修饰的变量,叫类变量或者静态变量;另一种没有static修饰,为实例变量。 在语法定义上的区别:静态变量前要加static关键字,而实例变量前则不加。 在程序运行时的…

无限漫游

一、FAT AP架构下,AP设备不做认证时: (1) AP1,AP2正常工作,发送Beacon帧,向STA通告支持的无线服务; (2) STA搜索到AP1的信号,向AP1发Probe Request,请求获取AP1所提供的无线服务;AP…

uni-app内置地图轨迹_MIUI11 新增亲情守护,支持安全围栏、运动轨迹功能

点击右上角关注我们,每天给您带来最新最潮的科技资讯,让您足不出户也知道科技圈大事!日前,小米 MIUI 体验总负责人 MIUI小凡 在微博上为大家预告了 MIUI11 的新特性「亲情守护」,并表示「在亲情守护中,我们…

:before与:after伪类的应用

1.小三角样式 .tip{ position:relative; display:inline-block; width:100px; margin:100px; padding:30px 20px; color:#fff; border:1px solid #666; border-radius:5px; background-color:rgba(0,153,51,1);}.tip:before{ content:; posit…

小心重载API方法

重载方法是API设计中的重要概念,尤其是当您的API是流利的API或DSL( 特定于域的语言 )时。 对于jOOQ就是这种情况,在这种情况下,您经常想使用与完全相同的方法名称来与库进行各种交互。 示例:jOOQ条件 pac…

phpcms 下载模型列表页直接点击下载

下载模型设置本地下载 列表页模板直接调用 <article class"prjDown"><p class"prjDownTitle">方案下载</p><nav class"prjDownNav"><ul>{pc:content action"lists" catid"$catid" num"3…

为什么Java中类方法不能访问实例方法

我们已经知道类体中的方法分为实例方法和类方法两种&#xff0c;用static修饰的是类方法。二者有什么区别呢&#xff1f;当一个类创建了一个对象后&#xff0c;这个对象就可以调用该类的方法。 当类的字节码文件被加载到内存时&#xff0c;类的实例方法不会被分配入口地址&…

python展开 c函数中的宏预处理_C中的预处理宏

C中的预处理宏宏定义就属于预处理命令的一种。那么&#xff0c;什么是宏呢&#xff1f;宏&#xff1a;c语言标准允许在程序中用一个标识符来表示一个字符串。标识符就是宏名。宏替换&#xff1a;宏替换就是宏定义。在编译预处理中&#xff0c;将程序中所有的宏名用相应的字符串…

(转) 中断处理程序中断服务例程

关于中断处理程序和中断服务例程ISR的区别及联系&#xff0c;之前一直搞混&#xff0c;今天抽时间将两者关系弄弄清楚。ok,下面进入主题。首先中断处理程序(Interrupt Handler)和中断服务例程ISR(Inerrupt Service Routine)是两个不同的概念.简单来说就是&#xff0c;一条中断线…

使用SQL:2003 MERGE语句的奥术魔术

时不时地&#xff0c;由于以下任何原因&#xff0c;我们不得不将INSERT与UPDATE区分开来感到尴尬&#xff1a; 我们必须至少发表两个声明 我们必须考虑性能 我们必须考虑比赛条件 我们必须在[UPDATE; 如果UPDATE_COUNT 0 THEN INSERT]和[INSERT; 如果例外然后更新] 我们必…

Swing 学习小记

初学Swing一路问题&#xff0c;一路学习 问题一&#xff1a;JPanel中动态组件添加&#xff0c;刷新问题&#xff1f; 错误一&#xff1a;使用repaint()方法&#xff0c;以为可以刷新&#xff0c;可行不通。 错误继续发生&#xff1a;还是使用repaint()方法&#xff0c;与之前不…

leetcode Spiral Matrix

题目连接 https://leetcode.com/problems/spiral-matrix/ Spiral Matrix Description Given a matrix of m x n elements (m rows, n columns), return all elements of the matrix in spiral order. For example, Given the following matrix: [   [ 1, 2, 3 ],   [ 4, 5…

python学生类出不来中文_Python 这类看起来学习门槛低的语言,是否真的适合入门编程学习?...

Python(计算机程序设计语言)Python是一种跨平台的计算机程序设计语言。 是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。最初被设计用于编写自动化脚本(shell)&#xff0c;随着版本的不断更新和语言新功能的添加&#xff0c;越多被用于独立的、大型项目的开…

克隆可序列化和不可序列化的Java对象

开发人员经常依靠3d方库来避免重新发明轮子&#xff0c;尤其是在Java世界中&#xff0c;Apache和Spring这样的项目如此盛行。 在处理这些框架时&#xff0c;我们通常很少或根本无法控制其类的行为。 这有时会导致问题。 例如&#xff0c;如果您想深度克隆不提供合适克隆方法的对…

2014编程之美资格赛

2014 编程之美挑战赛 --- 资格赛真题 题目1 : 同构 时间限制:2000ms单点时限:1000ms内存限制:256MB描述 给定2个树A和B&#xff0c;保证A的节点个数>B的节点个数。 现在你需要对树A的边进行二染色。 一个好的染色方案&#xff0c;指不存在一个树A中的连通块&#xff0c;同时…

JavaScript之面向对象学习六原型模式创建对象的问题,组合使用构造函数模式和原型模式创建对象...

一、仔细分析前面的原型模式创建对象的方法,发现原型模式创建对象,也存在一些问题&#xff0c;如下&#xff1a; 1、它省略了为构造函数传递初始化参数这个环节,结果所有实例在默认的情况下都将取得相同的属性值&#xff0c;这还不是最大的问题&#xff01; 2、最大的问题是原型…

stand up meeting 12/11/2015

part组员今日工作工作耗时/h明日计划工作耗时/hUI冯晓云完成单词释义热度排序&#xff1b;允许用户自主添加释义&#xff1b;完成了button位置的修正&#xff08;finally&#xff09;和弹窗的美化&#xff1b; 6try the backup plan 6PDF Reader朱玉影 完成了pdf文件的打…

ssrf漏洞内网渗透_渗透技巧之SSRF

SSRF——服务端请求伪造&#xff0c;上一篇&#xff0c;我谈到了CSRF客户端请求伪造&#xff0c;这个是我们通过攻击用户&#xff0c;引诱客户点击我们伪造好的表单&#xff0c;从而达到我们攻击的目的&#xff0c;是从客户端发起的&#xff0c;那么SSRF服务端请求伪造当然是通…