python爬虫企业级技术点_Python爬虫必备技术点(一)

爬虫必备技术

面向具有Python基础的Python爬虫爱好者,urllib和requests两个库在实际的项目中应用也非常广泛,不仅用于爬虫技术也可以应用在API接口调用方面。如果需要相关的案例可以加我QQ(610039018),另外我在B站上已发布了相关的爬虫视频(https://www.bilibili.com/video/av93731419)。

一、urllib总结

核心的网络请求库 -> urllib

urllib.request 模块

urlopen(url | request: Request, data=None) data是bytes类型

urlretrieve(url, filename) 下载url的资源到指定的文件

build_opener(*handlder) 构造浏览器对象

opener.open(url|request, data=None) 发起请求

Request 构造请求的类 url='https://www.baidu.com/s'

data={

'wd': '千锋'

}

urlencode(data) # 结果转成'wd=%f5%e6%e6%f5%e6%e6'

request = Request(url, data=urlencode(data).encode())

HTTPHandler HTTP协议请求处理器

ProxyHandler(proxies={‘http’: ‘http://proxy_ip:port’}) 代理处理

HTTPCookieProcessor(CookieJar())

http.cookiejar.CookieJar 类

urllib.parse模块

quote(txt) 将中文字符串转成url编码

urlencode(query: dict) 将参数的字典转成url编码,结果是key=value&key=value形式,即以 application/x-www-form-urlencoded作为url编码类型。

二、requests库【重点】

requests库也是一个网络请求库, 基于urllib和urllib3封装的便捷使用的网络请求库。

2.1 安装环境

pip install requests -i https://mirrors.aliyun.com/pypi/simple

2.2 核心的函数

requests.request() 所有请求方法的基本方法

以下是request()方法的参数说明

method: str 指定请求方法, GET, POST, PUT, DELETE

url: str 请求的资源接口(API),在RESTful规范中即是URI(统一资源标签识符)

params: dict , 用于GET请求的查询参数(Query String params);

data: dict , 用于POST/PUT/DELETE 请求的表单参数(Form Data)

json: dict 用于上传json数据的参数, 封装到body(请求体)中。请求头的Content-Type默认设置为application/json

files: dict, 结构 {‘name’: file-like-object | tuple}, 如果是tuple, 则有三种情况:

(‘filename’, file-like-object)

(‘filename’, file-like-object, content_type)

(‘filename’, file-like-object, content_type, custom-headers)

指定files用于上传文件, 一般使用post请求,默认请求头的Content-Type为multipart/form-data类型。

headers/cookies : dict

proxies: dict , 设置代理

auth: tuple , 用于授权的用户名和口令, 形式(‘username’, ‘pwd’)

requests.get() 发起GET请求, 查询数据

可用参数:

url

params

json

headers/cookies/auth

requests.post() 发起POST请求, 上传/添加数据

可用参数:

url

data/files

json

headers/cookies/auth

requests.put() 发起PUT请求, 修改或更新数据

requests.patch() HTTP幂等性的问题,可能会出现重复处理, 不建议使用。用于更新数据

requests.delete() 发起DELETE请求,删除数据

2.3 requests.Respose

以上的请求方法返回的对象类型是Response, 对象常用的属性如下:

status_code 响应状态码

url 请求的url

headers : dict 响应的头, 相对于urllib的响应对象的getheaders(),但不包含cookie。

cookies: 可迭代的对象,元素是Cookie类对象(name, value, path)

text : 响应的文本信息

content: 响应的字节数据

encoding: 响应数据的编码字符集, 如utf-8, gbk, gb2312

json(): 如果响应数据类型为application/json,则将响应的数据进行反序化成python的list或dict对象。

扩展-javascript的序列化和反序列化

JSON.stringify(obj) 序列化

JSON.parse(text) 反序列化

三、数据解析方式之xpath

xpath属于xml/html解析数据的一种方式, 基于元素(Element)的树形结构(Node > Element)。选择某一元素时,根据元素的路径选择,如 /html/head/title获取标签。

3.1 绝对路径

从根标签开始,按tree结构依次向下查询。

如 /html/body/table/tbody/tr。

3.2 相对路径

相对路径即是从当前某一个元素下开始查找,写法如下

相对于整个文档

//img

查找出文档中所有的1290180709494890496.htm标签元素

相对于当前节点

//table

假如当前节点是, 查找它的

1290180709494890496.htm的路径的写法

.//img

3.3 数据提取

提取文本

//title/text()

提取属性

//img/@href

3.4 位置条件

获取网页中的数据类型与字符集, 获取第一个标签

//meta[1]//@content

获取最后一个标签

//meta[last()]//@content

获取倒数第二个标签

//meta[position()-2]//@content

获取前三个标签

//meta[position()<3]//@content

3.5 属性条件

查找 class为circle-img的1290180709494890496.htm标签

//img[@class="circle-img"]

3.6 在Python中应用

首先要安装包pip install lxml,下面展示部分的代码片断:

from lxml import etree

root = etree.HTML('网页的内容')

element = root.xpath('xpath查找路径')

# element可能是两种类型,一是List=>[, ...]

# 另一个是Element对象,下面是Element对象的方法或属性

value = element.get('属性名')

text = element.text # 获取标签中文本,如千锋教育中的文本信息

children = element.xpath('相对xpath路径') # 获取它的子元素标签

四、考一考

写出urllib库的请求处理器有哪些类(尽量写全路径)

写出json.loads()和pickle.loads()返回的数据类型

写出pymysql的cursor.execute()方法中的参数及作用

把你们的答案可以写到评伦区,我会在后继统一回复。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/289985.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

日记2015.11.5

access 连接 mysql 下载32位版本 mysql-connector-odbc-5.3.4-win32.msi注意access是32位版本未解决中文显示出现的编码问题 sublime text 2 安装出错 利用 event viewer 查看报错原因参考 https://www.sublimetext.com/forum/viewtopic.php?f3&p37798spark 运行出错 没编…

Citrix桌面及应用虚拟化系列之二:XenServer补丁

安装好XenServer之后&#xff0c;可以找一台管理机器&#xff08;目前主流系统都支持&#xff09;安装XenCenter&#xff0c;通过XenCenter来实现对XenServer的管理。安装XenCenter: 安装.NET Framework3.5 然后可以下载安装中文版的XenCenter&#xff0c;下载地址&#xff1…

OutLook2016修改注册表迁移.ost文件数据

Outlook2016默认只有一次设置存放OST文件路径的机会&#xff0c;是在第一创建帐号的向导上有个其他设置。如果关闭这个向导&#xff0c;在打开就不能修改路径了。按照这样思路&#xff0c;我们先关闭Outlook和Skype&#xff08;新版共用一个数据库文件&#xff09;&#xff0c;…

MODIS NDVI数据处理相关问题

现NDVI产品数据处理过程中遇到以下问题: 问题1: NDVI是归一化植被指数,它的取值范围是-1—1,如何理解? 方法 : 对于陆地表面覆盖来说,云、雨、雪在可见光比近红外波段有较高的反射作用,所以NDVI为负值;岩石、裸土的NDVI一般为0;有植被覆盖的地方一般大于0。

委托原来如此简单

什么是委托&#xff1f;委托是存有对某个方法的引用的一种引用类型变量。引用可在运行时被改变。委托特别用于实现事件和回调方法&#xff01;使用委托:public delegate void MyDelegateDemo();private void HelloWorld(){Console.WriteLine("Hello World");}public …

0920,结构体

结构体&#xff1a;用户自定义数据类型&#xff0c;实际是变量组&#xff0c;可以一次存多个不同变量 结构体定义在main函数的外面 string 结构体名 { // 元素一 // 元素二 } //定义一个结构体 //struct student//student就是我们自己造的新数据类型 //{ …

Android之解决键盘覆盖编辑框问题

1、问题 键盘覆盖编辑框问题 2、解决办法 在Activity里面的onCreate方法里面加下代码 getWindow().setSoftInputMode(WindowManager.LayoutParams.SOFT_INPUT_ADJUST_PAN);

平面坐标(方里网)转换为经纬度坐标

方法一: 在Arcmap中转换: 1、加载要转换的数据,右下角为经纬度

mysql表 c#实体类,创建基于MySQL表中的C#类

Is there anything built into .Net or visual studio that will allow my to create classes based off of a MySql table. I guess I am talking about persistence. I just want the class to be a 1 to 1 mapping of the table. Does anything free exist?解决方案maybe y…

你真的了解扩展方法吗?

定义微软对于扩展方法的定义是:扩展方法使你能够向现有类型“添加”方法&#xff0c;而无需创建新的派生类型、重新编译或以其他方式修改原始类型。扩展方法是一种静态方法&#xff0c;但可以像扩展类型上的实例方法一样进行调用。对于用 C#、F# 和 Visual Basic 编写的客户端代…

Android之自定义checkbox并解决内容和复选框之间的具体问题

1、问题 checkbox自定义并解决内容和复选框之间的具体问题 2、代码实现 1、select_checkbox.xml文件 <?xml version="1.0" encoding="utf-8"?> <selector xmlns:android="http://schemas.android.com/apk/res/android"><item…

http协议--笔记

HTTP协议的缺点&#xff1a;1.通信使用明文&#xff08;不加密&#xff09;&#xff0c;内容可能会被窃听2.不验证通信方的身份&#xff0c;因此有可能遭遇伪装3.无法证明报文的完整性&#xff0c;所以有可能已遭篡改 防止窃听保护信息的几种对策&#xff1a;加密技术通信的加密…

生态需水

所谓生态需水是指为了维持流域生态系统的良性循环&#xff0c;人们在开发流域水资源时必须为生态系统的发展与平衡保证其所需的水量。生态需水是与流域工业、农业、城市生活需水相并列的一个用水单元。生态需水概念的提出体现了一种新的流域环境管理的思维模式&#xff0c;它重…

sublime mysql插件_开发者最常用的8款Sublime text 3插件

Sublime Text作为一个尽为人知的代码编辑器&#xff0c;其优点不用赘述。界面整洁美观、文本功能强大&#xff0c;且运行速度极快&#xff0c;非常适合编写代码&#xff0c;写文章做笔记。Sublime Text还支持Mac、Windows和Linux各大平台&#xff0c;方便用户使用。种类繁多、功…

Android学习笔记(三)

ContentProvider简单介绍 ContentProvider是不同应用程序之间进行数据交换的标准API&#xff0c;当一个应用程序须要把自己的数据暴露给其它程序使用时。该应用程序便可通过提供ContentProvider来实现&#xff0c;其它应用程序就可通过ContentResolver来操作ContentProvider暴露…

[tp3.2.1]数据模型 - 简单的模型连接

新建数据库数据库连接功能1.写conf.php/* 数据库设置 */DB_TYPE > , // 数据库类型DB_HOST > , // 服务器地址DB_NAME > , // 数据库名DB_USER > , // 用户名DB_PWD …

Android之解决toolbar里面显示返回按钮图片太大和没有水平居中的问题

1、问题 1、toolbar里面显示返回按钮图片太大 2、返回按钮图片没有水平居中 2、解决办法 1、把drawable里面的图片移动到mipmap-xhdpi里面去&#xff0c;还大了就移动到mipmap-xxxhdpi里面去&#xff0c;这样图片会缩小很多&#xff0c;就不需要再次换图片了。 2、在toolbar…

cake-build -.Net Core 跨平台构建自动化系统。

介绍Cake (C# Make) 是一个带有 C# DSL 的构建自动化系统&#xff0c;用于执行编译代码、复制文件/文件夹、运行单元测试、压缩文件和构建 NuGet 包等操作。地址https://cakebuild.net/docs构建本教程使用Cake Frosting&#xff0c;它允许您将构建编写为标准控制台应用程序作为…

PS实现分幅扫描图片的批量自动拼接

很简单&#xff0c;只需两步搞定&#xff1a; 一、打开工具&#xff0c;如图所示&#xff1a; 二、选择图片&#xff0c;进行拼接&#xff1a; 静待结果&#xff01;