爬虫系列之requests

 

 

爬取百度内容:

 1 import requests
 2 url = "https://www.baidu.com"
 3 
 4 if __name__ == '__main__':
 5     try:
 6         kv = {'user-agent': 'Mozilla/5.0'}
 7         r = requests.get(url, headers=kv)
 8         r.raise_for_status()  #返回状态值,如果不是200,则抛出异常
 9         r.encoding = r.apparent_encoding 
10         print(r.text)
11         #print(r.request.headers)
12     except:
13         print("爬虫失败")

 

在URL中填上http://www.baidu.com/s?wd=keyword,keyword就是我们要百度搜索的内容,在requests中有params参数,可以把参数追加到URL中。

 1 import requests
 2 url = "http://www.baidu.com/s"
 3 keyword = "python"
 4 
 5 if __name__ == '__main__':
 6     try:
 7         kv = {'user-agent': 'Mozilla/5.0'}
 8         wd = {'wd': keyword}
 9         r = requests.get(url, headers=kv, params=wd)
10         print(r.request.url)
11         r.raise_for_status()
12         r.encoding = r.apparent_encoding
13         print(len(r.text))
14     except:
15         print("爬虫失败")

 

爬取图片

 1 import requests
 2 import os
 3 url = "http://image.nationalgeographic.com.cn/2017/0211/20170211061910157.jpg"
 4 
 5 kv = {'header': 'Mozilla/5.0'}
 6 root = "D://pic_save//"
 7 path = root + url.split('/')[-1]
 8 
 9 if __name__ == '__main__':
10     try:
11         if not os.path.exists(root):
12             os.mkdir(root)
13         if not os.path.exists(path):
14             r = requests.get(url, headers=kv)
15             print(r.status_code)
16             with open (path, 'wb') as f:
17                 f.write(r.content)
18                 print("文件已保存成功")
19         else:
20             print("文件已存在")
21     except:
22         ("爬虫失败")

 

转载于:https://www.cnblogs.com/zyb993963526/p/8964612.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/367143.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何使用JSON和Servlet创建JQuery DataTable

在本文中,我将介绍使用简单servlet传递的JSON创建JQuery DataTable所需的基本编码。 DataTable是基于JQuery的非常强大的网格,具有高级功能,可以使用自定义功能在短时间内构建。 安装 下载最新的JQuery DataTable下载 上面的下载将提供两个…

页面重绘 回流及其优化

在讨论页面重绘、回流之前。需要对页面的呈现流程有些了解,页面是怎么把html结合css等显示到浏览器上的, 下面的流程图显示了浏览器对页面的呈现的处理流程。可能不同的浏览器略微会有些不同。但基本上都是类似的。 1. 浏览器把获取到的HTML代码解析成1…

Servlet异常和错误处理示例教程

有时我写了一篇有关Java异常处理的文章,但是当涉及到Web应用程序时,我们需要的不仅仅是Java中的异常处理。 Servlet异常 如果您注意到,doGet()和doPost()方法将抛出ServletException和IOExcept…

python数据结构与算法13_python 数据结构与算法 (13)

python 数据结构与算法 (13)选择排序 (Selection sort) 是? 种简单直观的排序算法. 它的? 作原理如 下.? 先在未排序序列中找到最?(?)元素, 存放到排序序列的起始位 置, 然后, 再从剩余未排序元素中继续寻找最?(?)元素, 然后放到已排 序序列的末尾. 以此类推, 直到所有元…

小程序如何发红包

咳咳,直入主题。敲黑板,请看下面一段对话。 产品:我想要小程序发红包这个功能 程序员:目前不支持啊 产品:我不管! 程序员:做不到啊,这。。。 产品:我不管!我不…

如何实现REST资源的输入验证

如何实现REST资源的输入验证 我正在使用的SaaS平台具有一个RESTful接口,该接口可以接受XML有效负载。 实施REST资源 对于像我们这样的Java商店,使用JAX-B从XML Schema生成JavaBean类是有意义的。 在像Jersey的JAX-RS环境中,使用JAX-B处理X…

Linux系统下,MySQL以及禅道的安装/卸载

1、MySQL卸载: (通过yum命令卸载之前安装的mysql, find命令找到mysql文件,再用rm –rf 强制删除/var/lib/mysql) 2、MySQL安装: (使用yum命令安装mysql,安装完成后启动数据库&#x…

winform 点击全选

代码如下: #region 全选//chkAll_Checked即全选控键的点击事件private void chkAll_CheckedChanged(object sender, EventArgs e){if (chkAll.Checked){chkSun.Checked true;chkMon.Checked true;chkThu.Checked true;chkTue.Checked true;chkWed.Checked true…

今天的考核题目: 你知道React和Vue的区别吗? skr,skr

React 和 Vue 的区别 博主面了几家公司,看简历上写着使用Vue.js框架,就会问,你能说一说 vue 和 react的区别吗 ?react 听过,没用过,所以就只能尴尬的说不怎么了解react。这不,最近刚学了react …

Play和Grails Java框架的优缺点

框架通过为程序员提供一些有用的功能来简化应用程序开发过程。 由于开发人员的普遍使用,Java框架经常被开发人员使用。 您可以在市场上找到各种Java开发框架。 新手开发人员经常在论坛上发布一个常见问题:“哪种Java框架是最好的?” 首先&am…

argb888与rgb888转换程序_一文了解各平台RGB565和RGB888区别

原标题:一文了解各平台RGB565和RGB888区别用过AM335x平台的小伙伴应该知道,OK335xS开发平台的LCD接口是RGB888模式的,而OK335xD开发平台的LCD接口是RGB565模式的。如果把xS的镜像烧写到xD平台上,那么LCD会显示颜色异常。这是为什么…

d4d#9 玩Docker只要浏览器就够了,PWD是个神奇的网站

本文是d4d系列的第9篇,在这一篇中给大家介绍一个学习Docker最为快捷高效的方式,你不需要自己搭建环境,也不用担心把自己的开发环境搞乱,你需要的只是一个浏览器,就可以立即开始学习Docker的常用命令;你甚至…

基于 Docker 打造前端持续集成开发环境

知乎: https://zhuanlan.zhihu.com/p/37961402本文将以一个标准的 Vue 项目为例,完全抛弃传统的前端项目开发部署方式,基于 Docker 容器技术打造一个精简的前端持续集成的开发环境。 前置知识:1. CI(持续集成)&#xf…

哪个内存更快?Heap或ByteBuffer或Direct?

Java正在成为新的C / C ,它被广泛用于开发高性能系统。 对像我这样的数百万Java开发人员来说非常好! 在这个博客中,我将分享我可以用Java完成的不同类型的内存分配实验以及您从中获得的好处。 Java中的内存分配 Java提供哪种类型的内存分配…

java没有打印mysql日志_0216 aop和打印数据库执行日志

需求maven依赖p6spyp6spy3.8.7com.google.guavaguava28.2-jreorg.springframework.bootspring-boot-starter-data-jpaorg.springframework.bootspring-boot-starter-webmysqlmysql-connector-javaruntimeorg.projectlomboklomboktrue打印sql配置要点:驱动配置 appli…

php数组基础

php中,数组的下标可以是整数,或字符串。 php中,数组的元素顺序不是由下标决定,而是由其“加入”的顺序决定。 定义: $arr1 array(元素1,元素2,。。。。。 ); array(1, 5, 1.1, “abc”, tr…

1.格式化输入输出

1.格式化输入input() input()函数,通常只能返回一个数据类型,那么怎么可以进行多个变量的复制呢?看下面这段代码。 1 str1, str2 eval(input("请输入两个字符串:")) 2 print(str1, str2) 3 4 num1, num2 eval(input(…

canvas像素点操作 —— 视频绿幕抠图

原文地址 主要内容 上篇文章学习了canvas像素点的获取 —— 传送门, 今天学一下canvas像素点操作。 一个方法:putImageData putImageData 用法: context.putImageData(imgData, x, y, dX, dY, dWidth, dHeight);参数描述imgData规定要放…

并发编程(一):基础概述

本篇博客主要讲述并发编程中的一些基础内容,并了解一下基本概念。 首先我们了解一下什么是并发? 同时拥有两个或者多个线程,如果程序在单核处理器上运行,多个线程将交替的换入或者换出内存,这些线程是同时“存在”的&a…

python哲学翻译_Python

正在学习Python开发语言的用户,可能会在学习过程中听说过讲师说过Python有一段有关于Python的哲学理念机设计思想,在Python里输入“import this”命令就会出现一段英文格言,这里我们把Python的这段格言的双语版分享出来,帮助正在学…