10个python爬虫入门实例

昨天带伙伴学习python爬虫,准备了几个简单的入门实例,涉及主要知识点:

web是如何交互的

requests库的get、post函数的应用

response对象的相关函数,属性

python文件的打开,保存

代码中给出了注释,并且可以直接运行哦

如何安装requests库(安装好python的朋友可以直接参考,没有的,建议先装一哈python环境)

windows用户:打开cmd输入以下命令即可,如果python的环境在C盘的目录,会提示权限不够,只需以管理员方式运行cmd窗口;

Linux用户:权限不够的话在命令前加入sudo即可。

1、爬取强大的BD页面,打印页面信息

第一个爬虫示例,爬取百度页面

import requests #导入爬虫的库,不然调用不了爬虫的函数

response = requests.get(“http://www.baidu.com”) #

生成一个response对象

response.encoding = response.apparent_encoding #设置编码格式

print(“状态码:”+ str( response.status_code ) ) #打印状态码

print(response.text)#输出爬取的信息

2、常用方法之get方法实例,下面还有传参实例

第二个get方法实例

import requests #先导入爬虫的库,不然调用不了爬虫的函数

response = requests.get(“http://httpbin.org/get”) #get方法

print( response.status_code ) #状态码

print( response.text )

3、常用方法之post方法实例,下面还有传参实例

第三个 post方法实例

import requests #先导入爬虫的库,不然调用不了爬虫的函数

response = requests.post(“http://httpbin.org/post”) #post方法访问

print( response.status_code ) #状态码

print( response.text )

4、put方法实例

第四个 put方法实例

import requests #先导入爬虫的库,不然调用不了爬虫的函数

response = requests.put(“http://httpbin.org/put”) # put方法访问

print( response.status_code ) #状态码

print( response.text )

5、常用方法之get方法传参实例(1)

如果需要传多个参数只需要用&符号连接即可如下

第五个 get传参方法实例

import requests #先导入爬虫的库,不然调用不了爬虫的函数

response = requests.get(“http://httpbin.org/get?name=hezhi&age=20”) # get传参

print( response.status_code ) #状态码

print( response.text )

6、常用方法之get方法传参实例(2)

params用字典可以传多个

第六个 get传参方法实例

import requests #先导入爬虫的库,不然调用不了爬虫的函数

data = {

“name”:“hezhi”,

“age”:20

}

response = requests.get( “http://httpbin.org/get” , params=data ) # get传参

print( response.status_code ) #状态码

print( response.text )

7、常用方法之post方法传参实例(2)(PS:和上一个有没有很像?)

第七个 post传参方法实例

import requests #先导入爬虫的库,不然调用不了爬虫的函数

data = {

“name”:“hezhi”,

“age”:20

}

response = requests.post( “http://httpbin.org/post” , params=data ) # post传参

print( response.status_code ) #状态码

print( response.text )

8、关于绕过反爬机制,以zh爸爸为例

第好几个方法实例

import requests #先导入爬虫的库,不然调用不了爬虫的函数

response = requests.get( “http://www.zhihu.com”) #第一次访问知乎,不设置头部信息

print( “第一次,不设头部信息,状态码:”+response.status_code )# 没写headers,不能正常爬取,状态码不是 200

#下面是可以正常爬取的区别,更改了User-Agent字段

headers = {

“User-Agent”:“Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari/537.36”

}#设置头部信息,伪装浏览器

response = requests.get( “http://www.zhihu.com” , headers=headers ) #get方法访问,传入headers参数,

print( response.status_code ) # 200!访问成功的状态码

print( response.text )

9、爬取信息并保存到本地

因为目录关系,在D盘建立了一个叫做爬虫的文件夹,然后保存信息

注意文件保存时的encoding设置

爬取一个html并保存

import requests

url = “http://www.baidu.com”

response = requests.get( url )

response.encoding = “utf-8” #设置接收编码格式

print(" r的类型" + str( type(response) ) )

print(" 状态码是:" + str( response.status_code ) )

print(" 头部信息:" + str( response.headers ) )

print( " 响应内容:" )

print( response.text )

#保存文件

file = open(“D:\爬虫\baidu.html”,“w”,encoding=“utf”) #打开一个文件,w是文件不存在则新建一个文件,这里不用wb是因为不用保存成二进制

file.write( response.text )

file.close()

10、爬取图片,保存到本地

#保存百度图片到本地

import requests #先导入爬虫的库,不然调用不了爬虫的函数

response = requests.get(“https://www.baidu.com/img/baidu_jgylogo3.gif”) #get方法的到图片响应

file = open(“D:\爬虫\baidu_logo.gif”,“wb”) #打开一个文件,wb表示以二进制格式打开一个文件只用于写入

file.write(response.content) #写入文件

file.close()#关闭操作,运行完毕后去你的目录看一眼有没有保存成功

文章来源:网络 版权归原作者所有

上文内容不用于商业目的,如涉及知识产权问题,请权利人联系小编,我们将立即处理

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/139901.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

通过easyexcel导出数据到excel表格

这篇文章简单介绍一下怎么通过easyexcel做数据的导出,使用之前easyui构建的歌曲列表crud应用,添加一个导出按钮,点击的时候直接连接后端接口地址,在后端的接口完成数据的导出功能。 前端页面完整代码 let editingId; let request…

Git被上锁无法进行操作解决办法

Git操作失败并提示Another git process seems to be running in this...... 比如,典型的: Another git process seems to be running in this repository, e.g. an editor opened by git commit. Please make sure all processes are terminated then t…

【Python】一篇带你掌握数据容器之列表

目录 前言: 一、列表 1.列表的定义 2.列表的下标索引 3.列表的常用操作 (1)index方法:查找某元素的下标 (2)修改特定位置下标的元素 (3)insert(下标,元素)方法&a…

基于SpringBoot+Vue的在线学习平台系统

基于SpringBootVue的在线学习平台系统的设计与实现~ 开发语言:Java数据库:MySQL技术:SpringBootMyBatisVue工具:IDEA/Ecilpse、Navicat、Maven 系统展示 主页 用户界面 登录界面 管理员界面 摘要 本文设计并实现了一套基于Spri…

Nuxt.js——基于 Vue 的服务端渲染应用框架

文章目录 前言一、知识普及什么是服务端渲染什么是客户端渲染?服务端渲染与客户端渲染那个更优秀? 二、Nuxt.js的特点Nuxt.js的适用情况? 三、Vue是如何实现服务端渲染的?安装依赖使用vue安装 Nuxt使用npm install安装依赖包使用n…

选择.NET 还是 Java?

1、.NET Framework的演变: .NET Framework: 最初由Microsoft引入,是一个Windows上的全功能框架。它包含了ASP.NET、Windows Presentation Foundation(WPF)、Windows Communication Foundation(WCF&#xff…

基于springboot实现桥牌计分管理系统项目【项目源码】

基于springboot实现桥牌计分管理系统演示 JAVA简介 JavaScript是一种网络脚本语言,广泛运用于web应用开发,可以用来添加网页的格式动态效果,该语言不用进行预编译就直接运行,可以直接嵌入HTML语言中,写成js语言&#…

数据分析:智能企业七步曲(一)

原创: MicroStrategy微策略中国 作者:数据杰论 时间走到2018年最后一个季度,过去几年热炒的大数据概念正在各行各业开始落地并展开实际应用,核心是关注数据如何能为企业带来价值。因此,数据分析及其种种实现手段不断被…

基于飞蛾扑火算法优化概率神经网络PNN的分类预测 - 附代码

基于飞蛾扑火算法优化概率神经网络PNN的分类预测 - 附代码 文章目录 基于飞蛾扑火算法优化概率神经网络PNN的分类预测 - 附代码1.PNN网络概述2.变压器故障诊街系统相关背景2.1 模型建立 3.基于飞蛾扑火优化的PNN网络5.测试结果6.参考文献7.Matlab代码 摘要:针对PNN神…

第一百七十一回 SearchBar组件

文章目录 1. 概念介绍2. 使用方法3. 代码与效果3.1 示例代码3.2 运行效果 4. 内容总结 我们在上一章回中介绍了"Material3中的IconButton"相关的内容,本章回中将 介绍SearchBar组件.闲话休提,让我们一起Talk Flutter吧。 1. 概念介绍 我们在…

2023 ChinaJoy后,Flat Ads成为游戏、社交出海的新选择

今年ChinaJoy 展会,共吸引了来自世界各地的 500 多家企业参展,预计吸引超过33万人次参观。ChinaJoy年年有,那今年对于行业来说有什么新变化呢? 01 出海热潮不减,新增客户明显提升 据不完全统计,展会期间前…

《红蓝攻防对抗实战》十二.内网穿透之利用ICMP协议进行隧道穿透

内网穿透之利用ICMP协议进行隧道穿透 一.前言二.前文推荐三.利用ICMP协议进行隧道穿透1.ICMPsh获取反弹shell2.PingTunnel 搭建隧道 四.本篇总结 一.前言 本文介绍了利用ICMP协议进行隧道穿透的方法。ICMP协议不需要开放端口,可以将TCP/UDP数据封装到ICMP的Ping数据…

Error creating bean with name ‘apiModelSpecificationReader‘ defined in URL

问题: 启动项目的时候,报错了 org.springframework.beans.factory.UnsatisfiedDependencyException: Error creating bean with name apiModelSpecificationReader defined in URL [jar:file:/D:/.gradle/caches/modules-2/files-2.1/io.springfox/sp…

基于springboot实现驾校管理系统项目【项目源码】

基于springboot实现驾校管理系统演示 JAVA简介 JavaScript是一种网络脚本语言,广泛运用于web应用开发,可以用来添加网页的格式动态效果,该语言不用进行预编译就直接运行,可以直接嵌入HTML语言中,写成js语言&#xff0…

【Windows网络编程】二.TCP套接字编程与主机上线实验

API: socket: 套接字函数创建绑定到特定传输服务提供程序的套接字。 函数原型:SOCKET WSAAPI socket([in] int af,[in] int type,[in] int protocol );参数: af:地址规范系列: AF_INET:IPv4&…

免费分享一套基于Springboot+Vue的在线考试系统,挺漂亮的

大家好,我是java1234_小锋老师,看到一个不错的SpringbootVue的在线考试系统,分享下哈。 项目视频演示 【免费】springbootvue在线考试系统 Java毕业设计_哔哩哔哩_bilibili【免费】springbootvue在线考试系统 Java毕业设计项目来自互联网&a…

劲松HPV防治诊疗中心发布:HPV感染全面防治解决方案

在当今社会,HPV(人乳头瘤病毒)感染问题已成为广大公众关注的焦点。作为一种高度传染性的病毒,HPV感染不仅可能导致生殖器疣,还可能引发各种癌症。面对这一严重威胁,劲松HPV防治诊疗中心以其专业的医疗团队、正规的治疗流程和全方位…

ZYNQ_project:key_led

条件里是十进制可以不加进制说明,编译器默认是10进制,其他进制要说明。 实验目标: 模块框图: 时序图: 代码: include "para.v"module key_filter (input wire …

长春理工大学漏洞报送证书

获取来源:edusrc(教育漏洞报告平台) url:主页 | 教育漏洞报告平台 兑换价格:10金币 获取条件:提交长春理工大学任意中危或以上级别漏洞

Linux驱动开发——PCI设备驱动

目录 一、 PCI协议简介 二、PCI和PCI-e 三、Linux PCI驱动 四、 PCI设备驱动实例 五、 总线类设备驱动开发习题 一、 PCI协议简介 PCI (Peripheral Component Interconnect,外设部件互联) 局部总线是由Intel 公司联合其他几家公司一起开发的一种总线标准&#…