python爬虫进阶(初始)

该内容主要是爬虫爬取图片以及html,属于库的基本内容,以后再在此基础上进阶更智能更全面的python代码
整体框架大致

目标:
下载图片
创建文件夹并在文件夹里加入东西
批量下载图片到文件夹里
筛选数据
批量筛选指定数据到文件夹里
将数据导入excle表格
将数据绘制成图表
在这里插入图片描述
1、爬图进阶

import urllib.requestresponse =urllib.request.urlopen('http://sc3.hao123img.com/data/fd5166d33dba874e15d4f8fb43be485d')
cat_img =response.read()with open('cat_20_300.jpg','wb') as a:a.write(cat_img)

1+、爬取html内容


import urllib.requestresponse =urllib.request.urlopen('http://www.fishc.com')
html =response.read().decode("utf-8")
print(html)

1++、批量爬取图片到文件夹里

import urllib.request
import ospath='images'
os.path.exists(path)
os.makedirs(path)   #创建文件夹for i in range(1,10):j=i*100# 网络上图片的地址img_src = 'http://placekitten.com/'+str(j)+'/'+str(j)# 将远程数据下载到本地,第二个参数就是要保存到本地的文件名urllib.request.urlretrieve(img_src,'E:/编程/python/网络爬图1/images/'+str(i)+'.jpg')

1+++、另一种批量爬取

import requests
from PIL import Image
from io import BytesIOimg_src = 'https://img-my.csdn.net/uploads/201212/25/1356422284_1112.jpg'
response = requests.get(img_src)
image = Image.open(BytesIO(response.content))
image.save('D:/9.jpg')

2、筛选标签

import urllib.request
import re                  #成功爬取当前页面所有图片地址response =urllib.request.urlopen('http://pic.hao123.com/meinv')
html=response.read()
html=html.decode("utf-8")par =r'<img src="(.*?)" alt="" style="width: 180px;"/>'
html=re.findall(par,html)for each in html:print(each)

3、筛选正文

import urllib.requesthtml = urllib.request.urlopen("https://www.douban.com/").read().decode("utf-8")# 整个html打印出来太多,这里我们就保存在文件中,再查看
of = open("E:/编程/python/网络爬图1/db_index.html","w")
of.write("dasdasdas")
of.close()

4、文档写入

f=open("E:/编程/python/网络爬图1/file.txt","w")
constant="i love you"
f.write(constant)
f.close()#可以写入任何硬盘当中

5、文档读取

f=open("E:/编程/python/网络爬图1/file.txt","r")
constant = f.read()
print(constant)
f.close()

6、文档综合整理

import urllib.requestresponse =urllib.request.urlopen('http://www.fishc.com')
html =response.read().decode("utf-8")
print(html)f=open("E:/编程/python/网络爬图1/file.html","w")
f.write(html)
f.close()#将html文件保存到本地

7、创建文件夹

import ospath='D'
os.path.exists(path)
os.makedirs(path)#os.mkdir(path)确认是否创建成功

8、导入excle表格

import pandas as pdj=pd.read_excel("E:/wps/账单/4月份账单.xlsx")print(j)

9、将数据绘制成图

import matplotlib.pylab as pyl
import numpy as npyx=[1,2,3,4,5]
y=[8,6,4,3,1]pyl.plot(x,y)   #绘制成线
pyl.plot(x,y,'o')   #标出点
pyl.show()  #展示该图

9+、绘制直方图

import matplotlib.pylab as pyl
import numpy as npydata=[8,6,9,413,49,45,41,6]
pyl.hist(data)
pyl.show()

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/323397.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Spring整合mybatis中的sqlSession是如何做到线程隔离的?

转载自 Spring整合mybatis中的sqlSession是如何做到线程隔离的&#xff1f; 项目中常常使用mybatis配合spring进行数据库操作&#xff0c;但是我们知道&#xff0c;数据的操作是要求做到线程安全的&#xff0c;而且按照原来的jdbc的使用方式&#xff0c;每次操作完成之后都要…

Net知识图谱

对于Web系统开发来说&#xff0c;Net其实也是有好多知识点需要学的&#xff0c;虽然目前JAVA是主流&#xff0c;就业市场比较大&#xff0c;但Net也在积极的拥抱开源&#xff0c;大Net Core 2 出来了&#xff0c;这无疑给Net开发者带来更大的希望&#xff0c;好了&#xff0c;以…

域名配置https时,请求无响应的解决方法

大家好&#xff0c;我是雄雄&#xff0c;欢迎关注微信公众号&#xff1a;雄雄的小课堂。 前言 在项目需要上线时&#xff0c;我们经常会遇到这样的需求&#xff0c;将http的域名换成https&#xff0c;或者当我们使用小程序开发时&#xff0c;只支持https的请求方式&#xff0c…

三步搭建网站

这两天无意中想了解更广泛的编程知识&#xff0c;便去看了些php的视频。我想把本机当成服务器来用&#xff0c;因为事先已经注册了域名&#xff0c;但当我又重新登录腾讯云的时候&#xff0c;上面显示我可以免费领取一个15天的服务器&#xff0c;抱着试一试的心态&#xff0c;领…

USACO2.3【dfs,dp,背包】

正题 T1:最长前缀 LongestPrefixLongest PrefixLongestPrefix 评测记录: https://www.luogu.org/recordnew/lists?uid52918&pidP1470 题目大意 求有字符串集合VVV中的字符可以组成的字符串s的最长前缀。 解题思路 用fif_ifi​表示能否组成长度为i的最长前缀&#xff0c…

jenkins~集群分发功能的具体实现

前一讲主要说了jenkins分发的好处《jenkins~集群分发功能和职责处理》&#xff0c;它可以让具体的节点干自己具体的事&#xff0c;比如windows环境下的节点&#xff0c;它只负责编译&#xff0c;发布windows的生态环境的项目&#xff1b;而linux节点主要负责和它相关的项目&…

一个经典面试题:如何保证缓存与数据库的双写一致性?

转载自 一个经典面试题&#xff1a;如何保证缓存与数据库的双写一致性&#xff1f; 只要用缓存&#xff0c;就可能会涉及到缓存与数据库双存储双写&#xff0c;你只要是双写&#xff0c;就一定会有数据一致性的问题&#xff0c;那么你如何解决一致性问题&#xff1f; 面试题…

让日子充实点

html基础学习&#xff1a;jscsshtml jquery学习 php学习 实在受不了了&#xff0c;学的走火入魔了。我就搞不懂自己和文件的配置较什么劲&#xff0c;为了配置PHP和mysql。我花了太多精力。主要不是在于策略&#xff0c;方法就那一两种&#xff0c;我搞不懂自己为什么就逮这不…

2018NOIP普及组初赛解析

前言 今年因为新政策的原因导致我又得回到普及组 我们东莞的成绩也出来了&#xff0c;虽然本来就是稳进&#xff0c;但是还是要认真对待。 然而我这个菜鸡运气好了点86分 正题 这里就不放题目了&#xff0c;观看本博客之前请拿好初赛试卷 选择题 答案:D 解析:扫描仪是输出设备…

.NET十年回顾

一、 引子 从我还是编程菜鸟时起&#xff0c;.NET就从来没让我失望过。总是惊喜不断。 当年我第一个项目是做个进销存。用的Winform。当时我是机电工程师。编程只是业余心血来潮而已。 .NET的低门槛、VS良好的编程体验及MSDN完善的说明让我从此踏上了码农的不归之路。 回首十…

常用公有云接入——亚马逊

一、什么是 Amazon EC2&#xff1f; Amazon Elastic Compute Cloud (Amazon EC2) 在 Amazon Web Services (AWS) 云中提供可扩展的计算容量。使用 Amazon EC2 可避免前期的硬件投入&#xff0c;因此您能够快速开发和部署应用程序。通过使用 Amazon EC2&#xff0c;您可以根据自…

nssl1191,P2700-逐个击破(平津战役)【并查集】

正题 题目大意 一棵树n个点 有k个点被占领&#xff0c;删除每一条边都有不同的代价&#xff0c;然后要求所以被占领的点相互隔开&#xff0c;代价最小。 解题思路 我们可以考虑反构图&#xff0c;将边权排序&#xff0c;然后对于每条边&#xff0c;如果加入这条边后不会使敌军…

C#生成anb文件

今天我们来看看C#中如何生成anb文件。 这个anb文件本来是要对接别的平台的&#xff0c;人家提供给我们一个协议&#xff0c;然后通过程序来生成&#xff0c;然后对方会根据生成的anb文件进行解析&#xff0c;然后得到心电图啥的。 代码如下&#xff1a; private void create…

开源纯C#工控网关+组态软件

一、 前言 在园子潜水也七八年了。说来惭愧&#xff0c;这么多年虽然一直自称.NET铁杆粉丝&#xff0c;然仅限于回几个不痛不痒的贴&#xff0c;既没有发布过代码&#xff0c;也没有写过文章。 看着.NET和C#在国外风生水起&#xff0c;国内却日趋没落&#xff0c;我也早觉得有…

面试官:给我说一下你理解的分布式架构

转载自 面试官&#xff1a;给我说一下你理解的分布式架构 # 什么是分布式架构 分布式系统&#xff08;distributed system&#xff09; 是建立在网络之上的软件系统。 内聚性&#xff1a;是指每一个数据库分布节点高度自治&#xff0c;有本地的数据库管理系统。 透明性&am…

c语言程序设计--图书管理系统

这个原本是c语言程序设计书里面的习题&#xff0c;老师布置的作业&#xff0c;既然写好了&#xff0c;就在网上分享下&#xff0c;相信肯定有很多和我一样使用的是这本教材&#xff0c;大家可以借鉴下答案&#xff0c;在dev c上运行是没有任何错误的。文末已经贴了源码&#xf…

Access denied for user ‘root‘ @‘123.233.244.218‘(using password:YES)的解决方法

大家好&#xff0c;我是雄雄&#xff0c;欢迎关注微信公众号&#xff1a;雄雄的小课堂。 前言 在我们新买了个服务器之后&#xff0c;数据库我觉得是比不可少的吧&#xff0c;任何一个项目&#xff0c;只要是动态的&#xff0c;都需要数据做数据的服务于支撑&#xff0c;目前我…

nssl1192-加密【字符串hash】

正题 题目大意 对于每个字母都有一个加密后的字母对应。 然后给一段字母其中包括密文和密文对应的原文的一部分(也有可能没有原文)&#xff0c;求一段最短的密文加原文。 解题思路 枚举密文和原文分界处。然后用字符串hash判断改变后的密文和后段原文是否相等。 code #inclu…

初探SQL Server 2017 on Docker@macOS

编者语&#xff1a;假期到了最后一天&#xff0c;或者你人在旅途&#xff0c;或者你睡了8天&#xff0c;而我在家修炼了几天&#xff0c;完成了一堆好玩的&#xff0c;慢慢和大家分享下。 9月27日SQL Server 2017 正式发布&#xff0c;看点一堆&#xff0c;而这次发布不仅有传统…

阿里面试,为什么Kafka不支持读写分离

转载自 阿里面试&#xff0c;为什么Kafka不支持读写分离 为什么数据库、redis都支持了读写分离功能&#xff0c;而kafka却没有&#xff1f; 厮大也是狠人&#xff0c;直接打开源码从头开始讲&#xff0c;我一看这情况不对&#xff0c;按照这进度得讲到天黑了&#xff0c;蹭着…