day03 爬虫

今日内容:一 爬虫原理二 Requests请求库一 爬虫原理1.什么是互联网?指的是由一堆网络设备,把一台台的计算机互联网到一起称之为互联网。2.互联网建立的目的?互联网建立的目的是为了数据的传递以及数据的共享。3.什么是数据?例如淘宝、京东商品信息等...东方财富、雪球网的一些证券投资信息...链家、自如等房源信息....12306的票务信息...4.上网的全过程:- 普通用户:打开浏览器 ——> 往目标站点发送请求 ——> 获取响应数据 ——> 渲染到浏览器中- 爬虫程序:模拟浏览器 ——> 往目标站点发送请求 ——> 获取响应数据 ——> 提取有价值的数据 ——> 持久化到数据中5.浏览器发送的是什么请求?http协议的请求。- 客户端:浏览器是一个软件 --> 客户端的 IP 和 端口- 服务端https://www.jd.com/www.jd.com(京东域名)-> DNS解析 -> 京东服务端的 IP 和 端口客户端的ip和端口  ------> 服务端的 IP 和 端口 发送请求可以建立链接获取相应数据。6.爬虫的全过程- 发送请求   (需要请求库: Requests请求库、Selenium请求库)- 获取响应数据  (只要往服务器发送请求,请求通过后会返回响应数据)- 解析并提取数据(需要解析库: re、BeautifulSoup4、Xpath...)- 保存到本地    (文件处理、数据库、MongoDB存储库)二 Requests请求库1.安装与使用- 打开cmd- 输入: pip3 install requests2.爬取视频3.抓包分析打开浏览器的开发者模式(检查)----> 选中network找到访问的页面后缀 xxx.html(响应文本)1)请求url(访问的网站地址)2)请求方式:GET:直接发送请求获取数据https://www.cnblogs.com/kermitjam/articles/9692597.htmlPOST:需要携带用户信息往目标地址发送请求https://www.cnblogs.com/login3) 响应状态码:2xx: 成功3xx: 重定向4xx: 找不到资源5xx: 服务器错误4) 请求头信息:User-Agent: 用户代理(证明是通过电脑设备及浏览器发送的请求)Cookies: 登录用户真实信息(证明你目标网站的用户)Referer: 上一次访问的url (证明你是从目标网站跳转过来的)5)请求体:POST请求才会有请求体。Form Data{'user': 'tank','pwd': '123'}四 爬取豆瓣电影.: 从当前位置开始*: 查找所有?: 找到第一个不找.*?: 非贪婪匹配.*: 贪婪匹配(.*?): 提取括号内的数据电影排名、电影url、电影名称、导演-主演-类型、电影评分、评价人数、电影简介<div class="item">.*?<em class="">(.*?)</em>.*?<a href="(.*?)">.*?<span class="title">(.*?)</span>.*?导演:(.*?)</p>.*?<span class="rating_num".*?>(.*?)</span>.*?<span>(.*?)人评价</span>.*?<span class="inq">(.*?)</span><div class="item">
<div class="pic"><em class="">226</em><a href="https://movie.douban.com/subject/1300374/"><img width="100" alt="绿里奇迹" src="https://img3.doubanio.com/view/photo/s_ratio_poster/public/p767586451.webp" class=""></a>
</div>
<div class="info"><div class="hd"><a href="https://movie.douban.com/subject/1300374/" class=""><span class="title">绿里奇迹</span><span class="title">&nbsp;/&nbsp;The Green Mile</span><span class="other">&nbsp;/&nbsp;绿色奇迹(台)  /  绿色英里</span></a><span class="playable">[可播放]</span></div><div class="bd"><p class="">导演: Frank Darabont&nbsp;&nbsp;&nbsp;主演: 汤姆·汉克斯 Tom Hanks / 大卫·摩斯 David M...<br>1999&nbsp;/&nbsp;美国&nbsp;/&nbsp;犯罪 剧情 奇幻 悬疑</p><div class="star"><span class="rating45-t"></span><span class="rating_num" property="v:average">8.7</span><span property="v:best" content="10.0"></span><span>141370人评价</span></div><p class="quote"><span class="inq">天使暂时离开。</span></p></div>
</div>
</div>

 

转载于:https://www.cnblogs.com/jiangchuanxu/p/11094452.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/362221.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java英雄:丹·艾伦

“ Java英雄 ”系列休息了很长时间。 老实说&#xff0c;我想即使有很多人想在这里收录&#xff0c;它也可能会以虚无收场。 其中之一是丹。 我第一次要求他捐款已经将近一年半了&#xff0c;与此同时发生的一切&#xff0c;让我不再有任何答案就让我安心了。 但是以下内容在Ja…

yearProgress.vue

1 <template>2 <div class"progressbar">3 <el-progress :text-inside"true" :soke-width"18" :percentage"percent" status"exception"></el-progress>4 <p>{{year}}年已经过去了…

group by rollup

首先引用ITPUB上的总结&#xff1a; rollup(a,b,c)----------------> 从右到底递减汇总>group by a,b,c (减0次)UNION ALL>group by a,b (减1次)UNION ALL>group by a (减2次)UNION ALL>group by null(全部汇总) (全部减掉)移动了4次&#xff0c;所…

Java-Class-I:java.util.List

ylbtech-Java-Class-I&#xff1a;java.util.List1.返回顶部 1.1、import java.util.ArrayList;import java.util.List; 1.2、List<Integer> newList new ArrayList<Integer>();newList.add(3); 2、 2.返回顶部1.1、import java.util.*;public class Test{public …

JS中编码的三种方法

在开发中经常需要对用户输入的数据进行编码然后才能通过HTTP请求发送给后台&#xff0c;或者对传递过来的数据进行解码。在JS中原生提供了三种编码/解码方式&#xff0c;分别是 encodeURI、 encodeURIComponent和 escape。 为什么URL需要编码&#xff1f; URI设计要求可移植&…

一个类加载的谜团解决了

面对一个好老问题 我在应用程序服务器上遇到一些类加载问题。 这些库被定义为Maven依赖项&#xff0c;因此被打包到WAR和EAR文件中。 不幸的是&#xff0c;其中一些也已安装到应用程序服务器中&#xff0c;但版本不同。 启动应用程序时&#xff0c;我们遇到了与这些类型的问题相…

vue 隐藏滚动条

element-ui隐藏组件scrollbar&#xff1a; <el-scrollbar style"height:100%"> </el-scrollbar>真正的隐藏滚动条代码在这里&#xff1a;.el-scrollbar__thumb {display: none;}.el-scrollbar__wrap {overflow-x: hidden;overflow-y: auto;}更多专业前端…

希望菜鸟通过博客园的记录和学习,成为一个可以能把自己想发实现的小程序员!...

我是一个学习电气自动化专业的毕业生&#xff0c;工作多年&#xff0c;接触过c语言、vb、单片机、PLC、linux&#xff0c;希望菜鸟通过博客园的记录和学习&#xff0c;成为一个可以能把自己想发实现的小程序员&#xff01; 生活和工作中有许多自己的表格和统计数据&#xff0c;…

获取DOM元素方法小结

在开发中不可避免的需要操作DOM&#xff0c;现在就来总结一下原生的获取DOM的API。 getElementById() 该方法是最常用的通过元素的id属性来获取DOM元素的API&#xff0c;返回一个DOM元素。 <body><div id"div">我是div</div><script type&qu…

推荐:个人时间跟踪工具 ManicTime

在《个人管理 &#xff0d; 目标管理之前&#xff0c;你会时间管理吗》中我介绍的时间管理三阶段之一“对时间的实际去处进行记录”时说过现在有很多时间管理工具&#xff0c;也有人希望我介绍一下我使用的工具&#xff0c;那么我就利用中午休息时间&#xff0c;马上给大家介绍…

Java和甜蜜的科学

当您使用Java进行开发已有15年并且同事要求您帮助他们调试空指针异常时&#xff0c;您不会感到惊讶。 通常&#xff0c;很明显什么是null&#xff0c;唯一要做的就是找出原因。 有时会有些困难&#xff0c;因为有人创建了一系列取消引用的对象。 前几天&#xff0c;我遇到了一…

SQL Server 2005怎样进行性能排错

很少会有偶然的性能下降。设计不良的数据库或工作负载配置不正确的系统会经常导致性能问题。管理员需要能预先阻止或最小化问题的影响&#xff0c;当管理员遇到问题时&#xff0c;应该诊断问题并采取正确操作来修复问题。本文提供了按部就班的指导&#xff0c;通过使用可用的工…

AcWing 207. 球形空间产生器 (高斯消元)打卡

有一个球形空间产生器能够在n维空间中产生一个坚硬的球体。 现在&#xff0c;你被困在了这个n维球体中&#xff0c;你只知道球面上n1个点的坐标&#xff0c;你需要以最快的速度确定这个n维球体的球心坐标&#xff0c;以便于摧毁这个球形空间产生器。 输入格式 第一行是一个整数…

jQuery中的ready

基于jQuery v1.8.3 在js与DOM交互之前要确保DOM已经加载构建完成&#xff0c;在jQuery中都是使用 (fn)或者(document).ready(fn)来确保自己写的代码在DOM构建完成之后执行。 那么jQuery的ready事件内部怎么实现的呢&#xff1f; 通过阅读源码&#xff08;line:842 ~ 898&…

JVM PermGen –您在哪里?

这篇文章介绍了JVM内存结构的一些基础知识&#xff0c;并快速窥视了PermGen&#xff0c;以了解自Java SE 8出现以来它已消失的地方。 裸基础 JVM只是系统上运行的另一个进程&#xff0c;魔术始于java命令。 像任何OS进程一样&#xff0c;它需要内存才能运行。 记住– JVM本身是…

vue 开发过程中遇到的问题

1. gitlab团队协作开发 2. element ui 问题集锦 3. 使用vue和ElementUI快速开发后台管理系统 更多专业前端知识&#xff0c;请上 【猿2048】www.mk2048.com

python6-函数

转载于:https://www.cnblogs.com/WIU1905/p/11101249.html

Windows Phone 7.1 “芒果” SDK Beta 下载地址

Windows Phone 7.1 “芒果” SDK Beta 今天早上发布&#xff0c;第一时间下载体验。功能果然激动人心。 下载地址&#xff1a; 离线ISO请点我&#xff0c; 在线安装请点我。转载于:https://www.cnblogs.com/finehappy/archive/2011/05/25/2056849.html

Windows系统安装 ffmpeg

下载及解压 ffmpeg官方下载地址&#xff1a;https://ffmpeg.org/download.html 下载好后将其解压至你想保存的位置中。 环境变量设置 打开Windows设置&#xff0c;在搜索框输入&#xff1a;系统高级设置。 新建环境变量&#xff0c;并输入bin目录具体位置。 安装检查 按住 w…

基于webpack3.x从0开始搭建React开发环境

在开发react单页面的时候无可避免的要使用到webpack打包&#xff0c;今天就从零开始搭建一个react的开发环境。 需要实现的功能有&#xff1a; 使用Babel编译ES6编译.jsx文件实现热更新编译CSS预处理文件Less&#xff0c;CSS后处理文件PostCSS提取公共的CSS样式到一个公共的文…