mechanize (1)

最近看的关于网络爬虫和模拟登陆的资料,发现有这样一个包

 

mechanize ['mekə.naɪz]又称为机械化的意思,确实文如其意,确实有自动化的意思。

mechanize.Browser and mechanize.UserAgentBase implement the interface of urllib2.OpenerDirector, so:

  • any URL can be opened, not just http:

  • mechanize.UserAgentBase offers easy dynamic configuration of user-agent features like protocol, cookie, redirection and robots.txt handling, without having to make a new OpenerDirector each time, e.g. by calling build_opener().

  • Easy HTML form filling.

  • Convenient link parsing and following.

  • Browser history (.back() and .reload() methods).

  • The Referer HTTP header is added properly (optional).

  • Automatic observance of robots.txt.

  • Automatic handling of HTTP-Equiv and Refresh.

意思就是说 mechanize.Browser和mechanize.UserAgentBase只是urllib2.OpenerDirector的接口实现,因此,包括HTTP协议,所有的协议都可以打开

另外,提供了更简单的配置方式而不用每次都创建一个新的OpenerDirector

对表单的操作,对链接的操作、浏览历史和重载操作、刷新、对robots.txt的监视操作等等

import re
import mechanize

(1)实例化一个浏览器对象 br = mechanize.Browser() (2)打开一个网址
br.open("http://www.example.com/") (3)该网页下的满足text_regex的第2个链接
# follow second link with element text matching regular expression response1 = br.follow_link(text_regex=r"cheese\s*shop", nr=1) assert br.viewing_html() (4)网页的名称
print br.title() (5)将网页的网址打印出来
print response1.geturl() (6)网页的头部
print response1.info() # headers (7)网页的body
print response1.read() # body
(8)选择body中的name =" order"的FORM br.select_form(name="order") # Browser passes through unknown attributes (including methods) # to the selected HTMLForm.
(9)为name = cheeses的form赋值 br["cheeses"] = ["mozzarella", "caerphilly"] # (the method here is __setitem__) # Submit current form. Browser calls .close() on the current response on # navigation, so this closes response1 (10)提交
response2 = br.submit()# print currently selected form (don't call .submit() on this, use br.submit()) print br.form (11)返回 response3 = br.back() # back to cheese shop (same data as response1) # the history mechanism returns cached response objects # we can still use the response, even though it was .close()d
response3.get_data() # like .seek(0) followed by .read() (12)刷新网页
response4 = br.reload() # fetches from server(13)这可以列出该网页下所有的Form
for form in br.forms():print form # .links() optionally accepts the keyword args of .follow_/.find_link() for link in br.links(url_regex="python.org"): print linkbr.follow_link(link) # takes EITHER Link instance OR keyword argsbr.back()

 这是文档中给出的一个例子,基本的解释已经在代码中给出

You may control the browser’s policy by using the methods of mechanize.Browser’s base class, mechanize.UserAgent. For example:

通过mechanize.UserAgent这个模块,我们可以实现对browser’s policy的控制,代码给出如下,也是来自与文档的例子:

br = mechanize.Browser()
# Explicitly configure proxies (Browser will attempt to set good defaults).
# Note the userinfo ("joe:password@") and port number (":3128") are optional.
br.set_proxies({"http": "joe:password@myproxy.example.com:3128",
"ftp": "proxy.example.com",})
# Add HTTP Basic/Digest auth username and password for HTTP proxy access.
# (equivalent to using "joe:password@..." form above)
br.add_proxy_password("joe", "password")
# Add HTTP Basic/Digest auth username and password for website access. br.add_password("http://example.com/protected/", "joe", "password")
# Don't handle HTTP-EQUIV headers (HTTP headers embedded in HTML). br.set_handle_equiv(False)
# Ignore robots.txt. Do not do this without thought and consideration. br.set_handle_robots(False)
# Don't add Referer (sic) header br.set_handle_referer(False)
# Don't handle Refresh redirections br.set_handle_refresh(False)
# Don't handle cookies br.set_cookiejar()
# Supply your own mechanize.CookieJar (NOTE: cookie handling is ON by # default: no need to do this unless you have some reason to use a # particular cookiejar) br.set_cookiejar(cj)
# Log information about HTTP redirects and Refreshes. br.set_debug_redirects(True)
# Log HTTP response bodies (ie. the HTML, most of the time). br.set_debug_responses(True)
# Print HTTP headers. br.set_debug_http(True)# To make sure you're seeing all debug output: logger = logging.getLogger("mechanize") logger.addHandler(logging.StreamHandler(sys.stdout)) logger.setLevel(logging.INFO)# Sometimes it's useful to process bad headers or bad HTML: response = br.response() # this is a copy of response headers = response.info() # currently, this is a mimetools.Message headers["Content-type"] = "text/html; charset=utf-8" response.set_data(response.get_data().replace("<!---", "<!--")) br.set_response(response)

 另外,还有一些类似于mechanize的网页交互模块,

There are several wrappers around mechanize designed for functional testing of web applications:

  • zope.testbrowser

  • twill

归根到底,都是对urllib2的封装,因此,选择一个比较好用的模块就好了!

转载于:https://www.cnblogs.com/CBDoctor/p/3855738.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/460235.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ubuntun安装ssh,并远程链接服务器操作

SSH是一种以安全、加密方式连接远程主机或服务器的方法。SSH服务器接受从有SSH的客户机的连接&#xff0c;允许操作者象在本地一样地登录系统。你可以用SSH从远程运行shell和X程序。 &#xff08;1&#xff09;安装SSH服务器 加入Universe和Multiverse源后&#xff0c;用新…

java微信web支付开发_微信支付java开发详细第三方支付功能开发之支付宝web端支...

这段时间把支付基本搞完了&#xff0c;因为做的过程中遇到许多问题&#xff0c;特地记录下来&#xff0c;同时方便其他java coder&#xff0c;废话少说&#xff0c;下面开始。整体思路&#xff1a;在后台&#xff0c;根据参数创建支付宝客户端AlipayClient&#xff0c;发送参数…

Android 监控网络状态

Html代码public static boolean isNetworkAvailable(Context context) { ConnectivityManager connectivity (ConnectivityManager)context.getSystemService(Context.CONNECTIVITY_SERVICE); if (connectivity null) { Log.i("NetWorkS…

Tokyo Tyrant安装和配置

Tokyo Tyrant安装和配置Tokyo Cabinet是日本人开发的一款DBM数据库&#xff0c;读写速度非常快。Tokyo Tyrant也是由同一作者开发的Tokyo Cabinet网络接口&#xff0c;兼容memcached协议&#xff0c;也可以通过http协议进行数据交换。Tokyo Tyrant加上Tokyo Cabinet构成一款支持…

mysql 最值复杂查询_MySQL高级查询

我们使用SQL查询不能只使用很简单、最基础的SELECT语句查询。如果想从多个表查询比较复杂的信息&#xff0c;就会使用高级查询实现。常见的高级查询包括多表连接查询、内连接查询、外连接查询与组合查询等&#xff0c;今天我们先来学习最常用、面试也很容易被问到的连接查询。我…

java事件类_关于Java事件类的一些思考

第一条是关于添加监听类时&#xff0c;如JButton button newJButton();button.addActionListener(this);如果进行两次注册监听类如再加一条button.addActionListener(this);那么当点击一次button时&#xff0c;button实际上会返回两次结果&#xff0c;相当于点击了两次button。…

java对象和json对象之间互相转换

2019独角兽企业重金招聘Python工程师标准>>> import java.util.ArrayList;import java.util.Collection;import java.util.Iterator;import java.util.List;import net.sf.json.JSONArray;import net.sf.json.JSONObject;public class MainClass { public static…

HDU 3397 线段树 双懒惰标记

这个是去年遗留历史问题&#xff0c;之前思路混乱&#xff0c;搞了好多发都是WA&#xff0c;就没做了 自从上次做了大白书上那个双重懒惰标记的题目&#xff0c;做这个就思路很清晰了 跟上次大白上那个差不多&#xff0c;这个也是有一个sets标记&#xff0c;代表这个区间全部置…

mysql接口可以重载吗_php 到底可不可以重载

展开全部php 作为一种弱类型语言&#xff0c;本身不能像强类型如java &#xff0c;c那样&#xff0c;直接的实现重载。不过可e68a84e8a2ad62616964757a686964616f31333337393539以通过一些方法&#xff0c;间接的实现重载。使用一个统一的函数来实现重载。该方法要使用func_get…

SQL Server :理解数据记录结构

原文:SQL Server &#xff1a;理解数据记录结构在SQL Server &#xff1a;理解数据页结构我们提到每条记录都有7 bytes的系统行开销&#xff0c;那这个7 bytes行开销到底是一个什么样的结构&#xff0c;我们一起来看下。 数据记录存储我们具体的数据&#xff0c;换句话说&#…

京东云擎提供了免费的wordpress一键安装功能了

1. 京东云擎(http://jae.jd.com)提供了免费的个人博客WordPress一键安装功能了&#xff0c;如下图&#xff0c;给开发者分享福利&#xff01; 免费的应用&#xff0c;提供了源码&#xff0c;提供了数据库&#xff1a; 我之前把文章发到首页&#xff0c;遭到了封杀&#xff01;本…

java 对象加密_java.security包实现对象加密

Java原生支持常见的加密算法&#xff0c;例如DES、RSA。随便写点关于Java安全包的东西。Java.security.Provider对象官方的解释是&#xff1a;实现了 Java 安全性的一部分或者全部。provider 可能实现的服务包括&#xff1a;算法(如 DSA、RSA、MD5 或 SHA-1)&#xff0c;密钥的…

ajax请求模拟登录

前台 if (Session["username"] ! null){<div class"login"><span style"width:155px;height:85px;display:inline-block;margin-left:50px;margin-top:25px;text-align:center">(Session["username"]) 您好&#xff01;&…

Distinct源码分析

以前比较两个List数据&#xff0c;筛选出所需要的数据时候&#xff0c;一直套两层for循环来执行。用到去重(Distinct)的时候&#xff0c;这两个需求其实都是一样的&#xff0c;都是需要比较两个集合&#xff0c;查看了下它的源码&#xff0c;里面确实有值得借鉴的地方。 先附上…

python3图片转代码_python3图片转换二进制存入mysql示例代码

python3图片转换二进制存入mysql示例代码发布于 2014-09-29 18:00:01 | 198 次阅读 | 评论: 0 | 来源: 网友投递Python编程语言Python 是一种面向对象、解释型计算机程序设计语言&#xff0c;由Guido van Rossum于1989年底发明&#xff0c;第一个公开发行版发行于1991年。Pytho…

oracle面试题[关于case when的用法]

表中有A B C三列,用SQL语句实现&#xff1a;当A列大于B列时选择A列否则选择B列&#xff0c;当B列大于C列时选择B列否则选择C列declare v_sal number:2000; v_tax number; begin case when v_salv_tax:v_sal*0.03; when v_salv_tax:v_sal*0.04; when v_salv_tax:v_sal*0.05; whe…

Javascript面向对象研究心得

这段时间正好公司项目须要&#xff0c;须要改动fullcalendar日历插件&#xff0c;有机会深入插件源代码。正好利用这个机会&#xff0c;我也大致学习了下面JS的面向对象编程&#xff0c;感觉收获还是比較多的。 所以写了以下这篇文章希望跟大家探讨探讨JS的面向对象&#xff0c…

矩阵连乘积 ZOJ 1276 Optimal Array Multiplication Sequence

题目传送门 1 /*2 题意&#xff1a;加上适当的括号&#xff0c;改变计算顺序使得总的计算次数最少3 矩阵连乘积问题&#xff0c;DP解决&#xff1a;状态转移方程&#xff1a;4 dp[i][j] min (dp[i][k] dp[k1][j] p[i-1] * p[k] * p[j]) (i<k<j)5 s…

md5加密java实现_MD5加密(java实现)

java实现MD5加密:import java.security.MessageDigest;import sun.misc.BASE64Encoder;public class Tools {/** md5加密算法* return:结果为16进制的字符串长度为32位*/public static String getMd5String(String str) throws Exception{StringBuilder md5Code new StringBui…

POJ 1273 Drainage Ditches 最大流

很裸的最大流问题&#xff0c;不过注意会有重边&#xff0c;o(╯□╰)o&#xff0c;被阴了WA了一发 还有就是要用long long #include <cstdio> #include <cstring> #include <cmath> #include <algorithm> #include <climits> #include <stri…