python实现简单爬虫抓取图片

最近在学习python,正如大家所知,python在网络爬虫方面有着广泛的应用,下面是一个利用python程序抓取网络图片的简单程序,可以批量下载一个网站更新的图片,其中使用了代理IP的技术。

import urllib.request
import os
import random
def url_open(url):req=urllib.request.Request(url)#为请求设置user-agent,使得程序看起来更像一个人类req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64; rv:43.0) Gecko/20100101 Firefox/43.0')#代理IP,使用户能以不同IP访问,从而防止被服务器发现'''iplist=['1.193.162.123:8000','1.193.162.91:8000','1.193.163.32:8000']proxy_support=urllib.request.ProxyHandler({'http':random.choice(iplist)})opener=urllib.request.build_opener(proxy_support)opener.addheaders=[('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.154 Safari/537.36 LBBROWSER')]urllib.request.install_opener(opener)'''response=urllib.request.urlopen(req)html=response.read()return html
def get_page(url):html=url_open(url).decode('utf-8')a=html.find('current-comment-page')+23b=html.find(']',a)#print(html[a:b])return html[a:b]def find_imgs(url):html=url_open(url).decode('utf-8')img_addrs=[]a=html.find('img src=')while a!=-1:b=html.find('.jpg',a,a+140)if b!=-1:if html[a+9]!='h':img_addrs.append('http:'+html[a+9:b+4])else:img_addrs.append(html[a+9:b+4])else:b=a+9a=html.find('img src=',b)for each in img_addrs:print(each+'我的打印')return img_addrsdef save_imgs(folder,img_addrs):for each in img_addrs:#print('one was saved')filename=each.split('/')[-1]with open(filename,'wb') as f:img=url_open(each)f.write(img)def download_mm(folder='ooxx',pages=10):os.mkdir(folder)os.chdir(folder)url="http://jandan.net/ooxx/"page_num=int(get_page(url))for i in range(pages):page_num=page_num-1page_url=url+'page-'+str(page_num)+'#comments'img_addrs=find_imgs(page_url)save_imgs(folder,img_addrs)if __name__=='__main__':download_mm()

完成

运行结果

结果

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/494458.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【每日SQL打卡】​​​​​​​​​​​​​​​DAY 10丨换座位【难度中等】

活动介绍: 「数据仓库技术交流群」已经正式启动每日SQL打卡,帮助大家扎实基础,努力工作之余,别忘了自我提升。 欢迎报名和邀请小伙伴参与,一个人可能走得很快,但一群人会走得很远。 🍅题目汇总(…

5G之后是什么?

来源:IEEE电气电子工程师学会如果你听过有关5G的承诺它可为自动驾驶汽车和沉浸式虚拟现实保驾护航的宣传,估计你很快就会意识到下一代无线网络将需要承载多少数据。但是,工程师们是不是太专注于提供满足数据饥渴型应用程序需要的低延迟网络&a…

javaweb实现验证码功能

在javaweb的用户注册与登陆功能时,有时为了防止漏洞或者大量注册,可以使用验证码功能,下面是验证码的一个简单实现 验证码类 public class ValiImg extends HttpServlet {public void doGet(HttpServletRequest request, HttpServletRespon…

【每日SQL打卡】​​​​​​​​​​​​​​​DAY 10丨买下所有产品的客户【难度中等】

活动介绍: 「数据仓库技术交流群」已经正式启动每日SQL打卡,帮助大家扎实基础,努力工作之余,别忘了自我提升。 欢迎报名和邀请小伙伴参与,一个人可能走得很快,但一群人会走得很远。 🍅题目汇总(…

数据洪流时代的芯片之变

芯片无所不在,没有芯片,就没有现代生活。 图片来源:百度图片来源:科学网摘要:自中兴事件发生以来,对于我国半导体及芯片产业一直存在两种截然相反的认识。自中兴事件发生以来,对于我国半导体及芯…

我没有超能力,我只是用了这10个网站。

🍅 作者主页:不吃西红柿 🍅 简介:CSDN博客专家 & 总榜前十🏆、HDZ核心组成员。欢迎点赞、收藏、评论 🍅 粉丝专属福利:知识体系、面试题库、技术互助、简历模板。文末公众号领取 1、今日热…

干货 | 加速AI发展!一文了解GPU Computing

来源: 启迪之星上海摘要:英伟达的显卡对于游戏达人来说再为熟悉不过,并逐渐融入到我们的日常生活当中。英伟达的显卡对于游戏达人来说再为熟悉不过,并逐渐融入到我们的日常生活当中。近日,世界上第一款“光线追踪”GPU…

图解二叉树的Morris(莫里斯)遍历

二叉树的Morris(莫里斯)遍历 本文参考链接:https://leetcode.cn/problems/binary-tree-preorder-traversal/submissions/490846864/ 文章目录 二叉树的Morris(莫里斯)遍历模板代码前序遍历中序遍历后序遍历 Morris 遍历使用二叉树节点中大量指向 null 的指针&…

瓜分340亿美元物联网芯片半导体市场!机会在这五大行业【附下载】| 智东西内参...

来源:智东西摘要:市场压力之下,物联网为工业、汽车、智慧城市、医疗健康和消费半导体提供了新的解决方案。半导体产业渗透了我们生活中的各个方面,从闹钟、微波炉到手机、笔记本。而现在,物联网技术正在为全球半导体市…

【每日SQL打卡】​​​​​​​​​​​​​​​DAY 11丨产品销售分析 II【难度简单】

活动介绍: 「数据仓库技术交流群」已经正式启动每日SQL打卡,帮助大家扎实基础,努力工作之余,别忘了自我提升。 欢迎报名和邀请小伙伴参与,一个人可能走得很快,但一群人会走得很远。 🍅题目汇总(…

用互联网大脑模型分析滴滴的战略意图和战术失误

作者:刘锋 互联网进化论作者,计算机博士滴滴出行与美国的Uber,本质上都是基于互联网的智能打车软件,让任何拥有家用汽车的司机都可以与出租车司机一样,服务于打车用户。 在滴滴,Uber出世之前的出租车行业…

仅需1/5成本:TPU是如何超越GPU,成为深度学习首选处理器的

作者:Kaz Sato 来源:Google Cloud、机器之心摘要:张量处理单元(TPU)是一种定制化的 ASIC 芯片,它由谷歌从头设计,并专门用于机器学习工作负载。TPU 为谷歌的主要产品提供了计算支持,…

[唐胡璐]Excel技巧 - 使用Excel 2007完成多人协同录入工作

下面我们来介绍下Excel 2007的共享功能。 一、设置共享 启动Excel 2007,打开需要设置共享的工作薄文档,切换到“审阅”菜单选项卡中,单击“更改”组中的“共享工作薄”按钮,打开“共享工作薄”对话框,如下图所示。 …

Android之jni入门

jni即java native interface,使用jni我们可以在JAVA中调用C代码,提高了效率,可以复用代码,可以灵活的应用于各种场景 怎么使用JNI 安装软件 1.NDK 用于将C代码编译成so库 2.CygWin 在windows下模拟linux环境 3.CDT 在eclipse…

腾讯投资过 600 多家公司不惊奇,京东也有出手 260+ | 大公司投资并购盘点

来源:IT桔子A 股一片绿,这已经不是满屏绿色的第一天了,2018 年以来,A 股经历了起起落落落落落落……尤其在中美贸易战不断升级后,A 股的代表颜色就成了绿色,少数会有几家企业翻红,然而过不了几天…

埋点技术:“呵呵,你在网上的一举一动,都在我眼皮子底下”

🍅 作者主页:不吃西红柿 🍅 简介:CSDN博客专家 & 总榜前十🏆、HDZ核心组成员。欢迎点赞、收藏、评论 🍅 粉丝专属福利:知识体系、面试题库、技术互助、简历模板。文末公众号领取 1、什么是…

美国斯坦福大学发布2025计划, 创立开环大学, 彻底颠覆全球高等教育

来源:钱塘号《斯坦福大学2025计划》在以设计思考理论著称的斯坦福大学设计学院牵头下正式启动,这次教育改革改变了以往自上而下的方式,代之以师生为主导。与其说《斯坦福大学2025计划》是一个方案,不如说它是一个对未来大学模式进…

语言处理想突破,三座大山必须过

来源:大数据文摘编译:李佳、汤圆、钱天培“我的飞机什么时候到?”把这个问题抛给智能机器人助手。几乎可以肯定,机器立马就懵逼了。“我”是谁?“飞机”是航班还是淘宝上订的模型玩具呢?“到”又是到哪呢&a…

CSDN每日打卡已经2周,进展如何?(送两个CSDN背包)

🍅 作者主页:不吃西红柿 🍅 简介:CSDN博客专家 & 总榜前十🏆、HDZ核心组成员。欢迎点赞、收藏、评论 🍅 粉丝专属福利:知识体系、面试题库、技术互助、简历模板。文末公众号领取 点赞评论 …

趋势 | 人工智能领域十大最具成长性技术展望

来源:搜狐日前,在2018世界机器人大会基础技术与创新论坛中,中国电子学会发布了《新一代人工智能十大成长性技术展望》。经调研走访了一批在新一代人工智能技术及产业方面具备领先水平和特色的龙头企业,拜访了来自于知名高校、研究…