浅谈爬虫 《一》 ===python

浅谈爬虫 《一》 ===python

 ‘’正文之前先啰嗦一下,准确来说,在下还只是一个刚入门IT世界的菜鸟,工作近两年了,之前做前端的时候就想写博客来着,现在都转做python了,如果还不开始写点什么,估计时间都不会原谅这么懒散的我了……

闲话到此,下面说正事儿——首先来个爬虫简介

  咋一听挺神秘的样子,简单来讲爬虫就是从网络获取资源,比如你想知道淘宝上的女装什么颜色的销量好,或者哪一款零食比较有赚头儿……   在说现在流行的人工智能,其实所谓的人工智能也就是足够的数据支撑,以及数据标记等等,使机器可以对足够多的场景作出反应……以上纯属个人观点,如有不对请指正

这次是真的讲正题了,爬虫分类,爬虫原理,以及python代码简单实现

比较同用的说法:爬虫分两类

  • 通用爬虫(也叫作搜索引擎爬虫)
  • 聚焦爬虫

总的来说都是网络爬虫!

    我们这里主要谈论的是聚焦爬虫:

爬虫简单来讲分三步:

  1. 发起请求
  2. 得到反馈
  3. 处理数据

由于python2已经快要停止更新了(大概2020年停止), 所以我们这里直接谈论python3的方法

# 导入需要的工具包
from urllib.request import Request,urlopen
# 发起请求(以请求百度为例) request = Request('http://www.baidu.com') # 得到反馈 response = urlopen(request) # 获取数据流 data = response.read() # 数据打印并且转码为 UTF-8 print(data.decode("utf-8")) 
打印结果(简略)
<!DOCTYPE html>
<!--STATUS OK-->
<html>
<head> ………… <title>百度一下,你就知道</title> …………

俗话说越是简单的越南学习,在爬虫这里就体现出来了, 上面的代码看起来简单,理解起来也没难度,但是不实用,只要网站稍做防范(反爬虫),就只能傻傻发呆了……,如果您打算从事爬虫工作那么发爬虫将是您工作生涯的中心!

下面介绍一个简单的反爬虫的例子:

from urllib.request import Request,urlopen
# 请求头信息,伪装成浏览器访问
ua_header = {"User-Agent" : "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;"} request = Request("http://note.youdao.com/iyoudao/?p=2411",headers=ua_header) #urlopen()函数,url是必须要传入的,data如果传入就是POST请求,如果不传就是GETT请求 response = urlopen(request) #到服务器返回的数据,读取里面的全部内容 response_data = response.read() #打印返回的数据 print(response_data.decode("utf-8")) 

只在请求头(ua_header)里面添加(User-Agent)只是最简单的伪装反爬,更多的反爬虫的方式包括但不限于cookie,session,代理等等。反爬方式有待探究,下次讨论简单代理以及爬虫的其他库

 


转载于:https://www.cnblogs.com/LoongitArt/p/9398466.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/451828.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Servlet全面讲解

前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;忍不住分享一下给大家。点击跳转到教程。Servlet&#xff08;Server Applet&#xff09;&#xff0c;全称Java Servlet。是用Java编写的服务器端程序。Servlet 是在服务器上运行的…

你的代码可以是优雅的,但是还有更重要的

引用软件设计有两种方法&#xff1a;一种是尽可能地简单&#xff0c;这种设计明显没有什么缺陷&#xff1b;另一种是尽可能地复杂&#xff0c;这种设计没有明显的缺陷。 ——C.A.R. Hoare&#xff0c;1980年图灵奖讲座在开发过程中&#xff0c;我的口头禅是&#xff1a; Your c…

15--0~n-1中缺失的数字

文章目录1. 问题描述2. 解题代码1. 问题描述 一个长度为n-1的递增排序数组中的所有数字都是唯一的&#xff0c;并且每个数字都在范围0&#xff5e;n-1之内。在范围0&#xff5e;n-1内的n个数字中有且只有一个数字不在该数组中&#xff0c;请找出这个数字。 示例 1: 输入: [0,…

如何在README中使用图片

将图片放在仓库里面&#xff0c;在文件里链接它&#xff0c;最后 push 到 github 上。 github 图片链接格式&#xff1a; (http://github.com/yourname/your-repository/raw/master/images-folder/xxx.png) 要自己设定的&#xff1a;yourname, your-repository, your-folder…

Unity中传入任意数,转换成分,秒,并进行倒计时换算..(两种方式)

第一种方式是利用Unity中的协程,代码如下: using System.Collections; using System.Collections.Generic; using UnityEngine; using UnityEngine.UI;public class DemoTest : MonoBehaviour {public Text text;//测试用的数字public int MyTime 60;void Start (){//开启协程…

内核编程小结(引用)

https://www.cnblogs.com/fanling999/p/4509785.html转载于:https://www.cnblogs.com/endenvor/p/9006507.html

JIRA 5.0.1 发布

Atlassian公司发布了JIRA 5.0.1版本&#xff0c;该版本相比JIRA 5.0有更多改进功能。1. 管理界面的改进 将更多页面管理转为对话框形式。例如点击页面右上方的“Add New”就可实现新增issue types、sub-tasks、field configurations 、screens。2. 性能改进 解决了基于Lucene 3…

java开启新线程的三种方法

前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;忍不住分享一下给大家。点击跳转到教程。 方式1&#xff1a;继承Thread类 步骤: 1):定义一个类A继承于Java.lang.Thread类. 2):在A类中覆盖Thread类中的run方法. 3):我们在ru…

16 --删除排序数组中的重复项

文章目录1.问题描述2.代码实现1.问题描述 给定一个排序数组&#xff0c;你需要在 原地 删除重复出现的元素&#xff0c;使得每个元素只出现一次&#xff0c;返回移除后数组的新长度。 不要使用额外的数组空间&#xff0c;你必须在 原地 修改输入数组 并在使用 O(1) 额外空间的…

jquery评分效果Rating精华版

参考&#xff1a;https://blog.csdn.net/bluceyoung/article/details/8573629转载于:https://www.cnblogs.com/yingyigongzi/p/9400489.html

NVIDIA助力SiemensPLMSoftware“工业4.0创新实验室”,携手推进中国制造创新之路

今日&#xff0c;NVIDIA宣布为SiemensPLMSoftware在北京建成的“工业4.0创新实验室”提供了支持。该实验室配备SiemensPLMSoftware全面的产品生命周期管理解决方案&#xff0c;结合第三方硬件&#xff0c;向中国制造企业展示“数字化企业”的全景图。实验室的工作站全部配备NVI…

java中的native方法

一. 什么是Native Method简单地讲&#xff0c;一个Native Method就是一个java调用非java代码的接口。一个Native Method是这样一个java的方法&#xff1a;该方法的实现由非java语言实现&#xff0c;比如C。这个特征并非java所特有&#xff0c;很多其它的编程语言都有这一机制&a…

17--合并两个有序数组

文章目录1.问题描述2.代码实现1.问题描述 给你两个有序整数数组 nums1 和 nums2&#xff0c;请你将 nums2 合并到 nums1 中&#xff0c;使 nums1 成为一个有序数组。 说明: 初始化 nums1 和 nums2 的元素数量分别为 m 和 n 。 你可以假设 nums1 有足够的空间&#xff08;空间…

Maven 添加本地 jar 包、添加依赖 jar 文件到本地 Maven 仓库、引用本地 jar

前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;忍不住分享一下给大家。点击跳转到教程。 1. 把要用的jar放在固定位置&#xff1a; 2.打开CMD&#xff0c;进入到libs文件夹: 3.运行如下命令&#xff1a; mvn install:install-…

如鹏网 net高级技术 第二章 委托和事件(复习)

委托 委托是一种数据类型&#xff0c;可以声明委托类型变量。 委托是一种可以指向方法的数据类型。 声明委托的方式:delegate返回值类型 委托类型名(参数)   比如  delegate void MyDel(int n) 注意这里的除了前面的delegate&#xff0c;剩下部分和声明一个函数一样&#…

黄文俊:Serverless小程序后端技术分享

欢迎大家前往腾讯云社区&#xff0c;获取更多腾讯海量技术实践干货哦~ 黄文俊&#xff0c;现任腾讯云SCF无服务器云函数高级产品经理&#xff0c;多年企业级系统开发和架构工作经验&#xff0c;对企业级存储、容器平台、微服务架构、无服务器计算等领域均有涉猎。今天讲的是怎么…

最少编码原则

本文作者是一位资深软件工程师&#xff0c;他根据多年的编程经验&#xff0c;把自己的观点组织整理成本文&#xff0c;希望能给大家一点启发。 “最少编码原则”并不是说写的代码少到令意思表达不清楚。其实在很多情况下&#xff0c;可以只写几行代码就能执行相同的逻辑&#x…

什么是标记接口

标识接口的作用 标识接口是没有任何方法和属性的接口。标识接口不对实现它的类有任何语义上的要求&#xff0c;它仅仅表明实现它的类属于一个特定的类型。 标接口在Java语言中有一些很著名的应用&#xff0c;比如java.io.Serializable和java.rmi.Remote等接口便是标识接口。标识…

18--两数之和 II - 输入有序数组

文章目录1.问题描述2.解题代码1.问题描述 给定一个已按照升序排列 的有序数组&#xff0c;找到两个数使得它们相加之和等于目标数。 函数应该返回这两个下标值 index1 和 index2&#xff0c;其中 index1 必须小于 index2。 说明: 返回的下标值&#xff08;index1 和 index2&a…

阿里巴巴 连接池 druid 的使用、maven依赖

前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;忍不住分享一下给大家。点击跳转到教程。 1. Druid是一个JDBC组件&#xff0c;它包括三部分&#xff1a; DruidDriver 代理Driver&#xff0c;能够提供基于Filter&#xff0d;…