爬虫 --通用篇

概述

爬虫是合法的吗?

是的,它是一个计算机的学科!一个工具

什么是爬虫?

通过编写程序,模拟浏览器上网,然后让其去互联网上爬取/获取数据的过程.爬虫爬取的也就是服务端的响应数据

爬虫使用场景的分类

- 通用爬虫 : 爬取一整张页面数据."抓取系统"

- 聚焦爬虫 : 爬取页面中指定的内容,建立在通用爬虫的基础上,爬到数据后,进行局部数据解析筛选

- 增量式爬虫 : 用来检测网站数据更新的情况.只爬取网站最新更新的数据.

反扒机制

网站指定了相关的技术手段或者策略阻止爬虫程序进行网页数据的爬取

- 机制一 : robots协议:一个文本协议,防君子不防小人的协议(哈哈),只是让你主观遵从,但也可以忽略直接爬取!

- 机制二 : UA检测,检测请求载体是否基于某一款浏览器

反反扒策略

爬虫破解网站指定的反扒策略

机制一 : 直接忽略

机制二 : UA伪装

http/https协议

客户端和服务器端进行数据交互的一种形式

- 请求头信息 :

    -  User-Agent  : 请求载体身份标识

    - Connection : close  (请求成功后马上断开)

- 响应头信息

    -Content-Type : json...

- https : 安全

    - 加密方式 : 

   -  对称秘钥加密 : 浏览器将秘钥和密文一起发送给服务器,极度不安全

        - 非对称秘钥加密 : 客户端没有保障秘钥是服务器发送的,可能被拦截替换,也不安全

        - 证书秘钥加密 : 安全

Jupyter

编写爬虫程序的环境

编写程序

什么是动态加载的数据?

页面加载的时候,通过ajax提交的post数据.

相关模块

-urllib    #比较古老,用法繁琐被requests模块代替

requests:网络请求的一个模块.
requests的作用: 模拟浏览器发请求。进而实现爬虫
requests的编码流程:
  - 1.指定url
  - 2.发起请求
  - 3.获取响应数据
  - 4.持久化存储

示例1 搜狗首页页面数据

#简单通用爬虫
import requests
#指定url
url = "https://www.sougou.com/"
#发起请求:get的返回值就是一个响应对象
response = requests.get(url=url)
#获取响应数据,返回字符串形式的响应数据
page_text = response.text 
#持久化存储
with open("./sougou.html","w",encoding="utf-8") as fp:fp.write(page_text)

示例2 爬取搜狗自定词条搜索后的页面数据

import requestsurl = "https://www.sogou.com/web"
content = input(">>> ").strip()
param = {"query":content}
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36"
}response = requests.get(url=url,params=param,headers = headers)
response.encoding = "utf-8"
page_text = response.text
name = content + ".html"
with open(name,'w',encoding="utf-8") as f:f.write(page_text)print("爬取成功")

示例3 破解百度翻译

#破解百度翻译爬取想要的信息  动态加载数据,
import requests
content = input("输入一个单词: ")
url = "https://fanyi.baidu.com/sug"
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36"
}
data = {"kw":content}
response = requests.post(url=url,headers=headers,data=data)
obj_json = response.json()
print(obj_json)

 示例4 爬取豆瓣电影中的电影详情数据

#爬取豆瓣上的电影,注意,页面上可能存在动态页面
import requests,json
url = "https://movie.douban.com/j/chart/top_list"
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36"
}
param = {"type": "5","interval_id": "100:90","action": "","start": "0","limit": "200"
}
response = requests.get(url=url,params=param,headers=headers)
movie_json = response.json()
name = "dz_movie"+".json"
print(len(movie_json))
with open(name,"w",encoding="utf-8") as f:json.dump(movie_json,f)print("爬取写入完成")

示例5 爬取任意城市肯德基的餐厅位置信息

import requests,json
all_data = []
url = "http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=keyword"
content = input("请输入城市名称: ").strip()
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36"
}
for i in range(1,8):data = {"cname":"","pid": "","keyword": content,"pageIndex": str(i),"pageSize": "10"}json_obj = requests.post(url=url,headers=headers,data=data).json()for i in json_obj['Table1']:all_data.append(i)
name = 'KFC.json'
with open (name,"w",encoding="utf-8")as f:json.dump(all_data,f)print("KFC data is ok")
爬取KFC门店

 

示例6.化妆品企业

#查看国家药监总局中基于中华人民共和国化妆品生产许可证相关数据
import requests,json
id_lst = []  #获取所有企业UUID
all_data = [] #存储所有企业的详情信息
post_url = "http://125.35.6.84:81/xk/itownet/portalAction.do?method=getXkzsList"headers = {"User-Agent":"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36"
}
for i in range(1,10):data = {"on": "true","page": str(i),"pageSize": "15","productName": "","conditionType": "1","applyname": "","applysn": ""}json_obj = requests.post(url=post_url,headers=headers,data=data).json()for dic in json_obj["list"]:ID = dic["ID"]id_lst.append(ID)
for id in id_lst:detail_post_url = "http://125.35.6.84:81/xk/itownet/portalAction.do?method=getXkzsById"data = {"id":id}detail_dic = requests.post(url=detail_post_url,data=data).json()all_data.append(detail_dic)
name = "hzpqy"+".json"
with open(name,"w",encoding="utf-8") as fb:json.dump(all_data,fb)print("data is ok!")
爬取化妆品企业信息

 

 

...

转载于:https://www.cnblogs.com/CrazySheldon1/p/10788588.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/483530.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【计算机网络复习 数据链路层】3.2 封装成帧和透明传输

封装成帧和透明传输一、封装成帧二、透明传输一、封装成帧 封装成帧就是在一段数据的前后部分添加首部和尾部,这样就构成了一个帧。接收端在收到物理层上交的比特流后,就能根据首部和尾部的标记,从收到的比特流中识别帧的开始和结束。 首部…

新一代人工智能:从“感知智能”向“认知智能”转化

来源:光明网 《光明日报》( 2021年05月25日 09版)新一代人工智能正在逐步从感知智能向认知智能转化——这是全国政协副主席、中国科协主席万钢在第五届世界智能大会上作出的判断。“感知智能是机器具备了视觉、听觉、触觉等感知能力&#xf…

迷宫城堡 强连通

Problem Description为了训练小希的方向感&#xff0c;Gardon建立了一座大城堡&#xff0c;里面有N个房间(N<10000)和M条通道(M<100000)&#xff0c;每个通道都是单向的&#xff0c;就是说若称某通道连通了A房间和B房间&#xff0c;只说明可以通过这个通道由A房间到达B房…

【计算机网络复习 数据链路层】3.3.1 差错控制(检错编码)

差错控制&#xff08;检错编码&#xff09;一、差错从何而来&#xff1f;二、数据链路层的差错控制2.1 奇偶校验码2.2 CRC循环冗余码一、差错从何而来&#xff1f; 概括来说&#xff0c;传输中的差错都是由于噪声引起的。 全局性&#xff1a;由于线路本身电气特性所产生的随机…

从“元宇宙”热炒中理性看待我国虚拟现实产业发展

来源&#xff1a;工信头条作者&#xff1a;袁钰&#xff08;赛迪顾问、电子信息产业研究中心、分析师&#xff09;2021年4月以来&#xff0c;元宇宙概念大热&#xff0c;国内外巨头企业围绕“元宇宙”加快布局&#xff0c;作为元宇宙核心技术之一的虚拟现实也被寄予厚望。经数据…

2018-2019-2 网络对抗技术 20165332 Exp6 信息搜集与漏洞扫描

2018-2019-2 网络对抗技术 20165332 Exp6 信息搜集与漏洞扫描 基础问题回答 基础问题回答 &#xff08;1&#xff09;哪些组织负责DNS&#xff0c;IP的管理。 答&#xff1a;目前全球有5个地区性注册机构&#xff1a; ARIN主要负责北美地区业务 RIPE主要负责欧洲地区业务 APNIC…

【计算机网络复习 数据链路层】3.3.2 差错控制(纠错编码)

差错控制&#xff08;纠错编码&#xff09;一、海明码1.1 确定校验码位数r1.2 确定校验码和数据的位置1.3 求出校验码的值1.4 检错并纠错一、海明码 **海明码&#xff1a;**发现双比特错&#xff0c;纠正单比特错。 1.1 确定校验码位数r 海明不等式&#xff1a; r 为冗余信…

Nature封面重磅!剑桥大学团队揭开老年痴呆背后的罪魁祸首

来源&#xff1a;naturetau蛋白异常是老年痴呆症的重要病因。英国剑桥大学Sjors H. W. Scheres、Michel Goedert等研究人员在Nature上发文&#xff0c;基于不同的蛋白折叠结构对「tau蛋白病」进行分类&#xff0c;荣登Nature封面。听说过阿尔茨海默病吗&#xff1f;没有。老年痴…

速度比晶体管快1000倍,新型单光子开关登上Nature

来源&#xff1a;机器之心作者&#xff1a;CHARLES Q. CHOI一种新型光学开关每秒钟的运行次数达到 1 万亿次&#xff0c;要比现在商用的顶级硅芯片快100到1000倍&#xff0c;这项研究未来或许可以催生出基于光而不是电的新一代计算机。在如今人们应用最为广泛的计算机架构中&am…

【计算机网络复习 数据链路层】3.4.1 流量控制与可靠传输机制

流量控制与可靠传输机制一、数据链路层的流量控制二、流量控制的方法三、可靠传输、滑动窗口、流量控制一、数据链路层的流量控制 较高的发送速度和较低的接收能力不匹配&#xff0c;会造成传输出错&#xff0c;因此流量控制也是数据链路层的一项重要工作。 数据链路层的流量…

linux的驱动开发——简单驱动程序编写

1.字符设备驱动介绍 \qquad字符设备驱动是linux驱动中&#xff0c;最基本的一类设备驱动&#xff0c;字符设备就是按照一个字节一个字节的方式进行读写操作的设备。读写数据分先后顺序&#xff0c;我们常见的单片机外设&#xff0c;比如led灯、按键、I2C、SPI、LCD等等都属于字…

【计算机网络复习 数据链路层】3.4.2 停止-等待协议

停止-等待协议一、停等协议1.1 无差错情况1.2 有差错控制1.4 停等协议性能分析一、停等协议 1、为什么要有停止-等待协议&#xff1f; 除了比特出差错&#xff0c;底层信道还会出现丢包问题。 丢包&#xff1a; 物理线路故障、设备故障、病毒攻击、路由信息错误等原因&#…

6G目前进展与未来展望

来源&#xff1a;6G俱乐部摘要&#xff1a;随着5G的大规模商用&#xff0c;6G研究也成为了移动通信行业新的研究热点。全球通信发达的国家和地区纷纷出台6G研发规划。面向2030年&#xff0c;如何定义6G&#xff0c;如何支撑6G突破现有技术的束缚&#xff0c;构建全新的能力体系…

一起玩儿物联网人工智能小车(ESP32)——14. 用ESP32的GPIO控制智能小车运动起来(二)

摘要&#xff1a;本文主要讲解如何使用Mixly实现对单一车轮的运动控制。 下面就该用程序控制我们的小车轮子转起来了。打开Mixly软件&#xff0c;然后单击顶部“文件”菜单中的“新建”功能&#xff0c;我们来开启一个新程序的开发工作。 我们的工作同样是先从最简单的开始&am…

【计算机网络复习 数据链路层】3.4.3 后退N帧协议(GBN)

后退N帧协议&#xff08;GBN&#xff09;一、后退N帧协议中的滑动窗口二、GBN发送方必须响应的三件事三、GBN接收方要做的事四、滑动窗口长度一、后退N帧协议中的滑动窗口 发送窗口&#xff1a;发送方维持一组连续的允许发送的帧的序号。 接收窗口&#xff1a;接收方维持一组连…

AI+Science 是人类两大科研范式的结合,工程化正当时

来源&#xff1a;ScienceAI编辑&#xff1a;ScienceAI近年来&#xff0c;人工智能&#xff08;AI&#xff09;快速发展&#xff0c;与此同时&#xff0c;越来越多的自然科学研究开始利用 AI 解决领域问题&#xff0c;比如助力药物研发、癌症疗法、材料发现&#xff0c;以及科研…

Docker 是一个开源的应用容器引擎

Docker 是一个开源的应用容器引擎&#xff0c;让开发者可以打包他们的应用以及依赖包到一个可移植的容器中&#xff0c;然后发布到任何流行的 Linux 机器上&#xff0c;也可以实现虚拟化。容器是完全使用沙箱机制&#xff0c;相互之间不会有任何接口。 Docker中包括三个基本概念…

【计算机网络复习 数据链路层】3.4.4 选择重传协议(SR)

选择重传协议&#xff08;SR&#xff09;一、选择重传协议中的滑动窗口二、SR发送方必须响应的三件事三、SR接收方要做的事四、滑动窗口长度五、总结一、选择重传协议中的滑动窗口 二、SR发送方必须响应的三件事 1、上层的调用 从上层收到数据后&#xff0c;SR发送方检查下一…

FZU - 2103 Bin Jing in wonderland

FZU - 2103 Bin & Jing in wonderland 题目大意&#xff1a;有n个礼物&#xff0c;每次得到第i个礼物的概率是p[i]&#xff0c;一个人一共得到了k个礼物&#xff0c;然后按编号排序后挑选出r个编号最大的礼物。现在给出r个礼物的编号&#xff0c;问能得到这r个礼物的概率。…

登上Science子刊,神经科学再次启发DNN设计!中科院揭秘介观自组织反向传播机制...

来源&#xff1a;AI科技评论作者&#xff1a;张铁林&#xff0c;徐波论文标题&#xff1a;A Mesoscale Plasticity for Efficient AI Learning在人工智能领域&#xff0c;目前人工神经网络中被广泛使用的反向传播算法&#xff08;Backpropagation&#xff0c;BP&#xff09;采用…