python下载网上的文件

1.使用 urlretrieve

最最最简单!!!!

from urllib.request import urlretrieve
# Python 2.7.9 之后版本引入了一个新特性:当你 urllib.urlopen一个 http s的时候会验证一次 SSL 证书 ,当目标使用的是自签名的证书时就会爆出该错误消息
# 解决方法:在全局添加如下两行代码
import ssl
ssl._create_default_https_context = ssl._create_unverified_context# 爬txt文件内容
TXT_URL = "http://www.trustlet.org/datasets/extended_epinions/rating.txt"
urlretrieve(TXT_URL, r'C:\Users\10840\Downloads\rating.txt')# 爬图片
IMAGE_URL = "https://morvanzhou.github.io/static/img/description/learning_step_flowchart.png"
urlretrieve(IMAGE_URL, r'C:\Users\10840\Downloads\img.png')print("finish yeyeyey ~~~~")

2.使用 request

requests 可以更加有效率的下载大文件, 比如视频等。
requests 能让你下一点, 保存一点, 而不是要全部下载完才能保存去另外的地方。这就是一个 chunk 一个 chunk 的下载。
使用 r.iter_content(chunk_size) 来控制每个 chunk 的大小, 然后在文件中写入这个 chunk 大小的数据。

import requestsIMAGE_URL = "https://morvanzhou.github.io/static/img/description/learning_step_flowchart.png"# 无大小控制
r = requests.get(IMAGE_URL)
with open(r'C:\Users\10840\Downloads\img.png', 'wb') as f:f.write(r.content)# 使用 chunk_size 控制大小   
r = requests.get(IMAGE_URL, stream=True)   
with open(r'C:\Users\10840\Downloads\img.png', 'wb') as f:for chunk in r.iter_content(chunk_size=32):f.write(chunk)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480166.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Redis系列教程(八):分布式锁的由来、及Redis分布式锁的实现详解

在很多场景中,我们为了保证数据的最终一致性,需要很多的技术方案来支持,比如分布式事务、分布式锁等。那具体什么是分布式锁,分布式锁应用在哪些业务场景、如何来实现分布式锁呢?今天来探讨分布式锁这个话题。 什么是…

平衡二叉树、二叉排序树-数据结构

数据结构之平衡二叉树建立:https://www.cnblogs.com/zhujunxxxxx/p/3348798.html 平衡二叉树(AVL树)及C语言实现:http://data.biancheng.net/view/59.html 二叉排序树与平衡二叉树的转化

技术交流:老刘说NLP技术公众号开通

我有一个念想:在当今PR文章满天飞的背景下,我们能够保持人间清醒,对NLP技术有客观、公正的了解,并实事求是地进行技术实践和知识共享。老刘说NLP,将定期发布更多、更简单、更有趣的语言知识、想法、笔记,包…

POJ 2453 贪心应用

文章目录1. 题目1.1 题目链接1.2 题目大意1.3 解题思路2. Accepted 代码1. 题目 1.1 题目链接 http://poj.org/problem?id2453 1.2 题目大意 一个数x的二进制表示有n个1,求一个有相同个数1的二进制数(比x大,且要最小的) 1.3…

leetcode--数组(Medium1)

2019.08.05 3.无重复字符的最长字串 基本思想:双指针、哈希表实现: 使用 head 指向无重复子串的头,ind 指向当前位置(即当前无重复子串的尾),len_max记录当前无重复字串的最长长度,使用字典的 …

ICML2020 | 一行代码就能实现的测试集上分技巧

星标/置顶小屋,带你解锁最萌最前沿的NLP、搜索与推荐技术文 | 苏剑林编 | 夕小瑶在训练模型的时候,我们需要损失函数一直训练到0吗?显然不用。一般来说,我们是用训练集来训练模型,但希望的是验证集的损失越小越好&…

Redis系列教程(七):Redis并发竞争key的解决方案详解

Redis高并发的问题 Redis缓存的高性能有目共睹,应用的场景也是非常广泛,但是在高并发的场景下,也会出现问题: 高并发架构系列:Redis缓存和MySQL数据一致性方案详解 如何解决Redis缓存雪崩、缓存穿透、缓存并发等5大难…

技术动态 | 北京大学计算机所邹磊教授研究组开源面向 RDF 知识图谱的自然语言问答系统 gAnswer...

项目网站: http://ganswer.gstore-pku.com/代码地址: https://github.com/pkumod/gAnswerOpenKG发布地址: http://openkg.cn/tool/ganswer研究组主页: http://mod.icst.pku.edu.cn一、KBQA 任务简介基于知识库的自然语言问答 (Question Answering over Knowledge Base, KBQA) 主…

SQL简明数据分析教程

https://blog.csdn.net/heming6666/article/details/78207476 实际案例分析: 一道简单的sql语句题 https://cloud.tencent.com/developer/article/1092199

POJ 2287 田忌赛马(贪心)

文章目录1. 题目1.1 题目链接1.2 题目大意1.3 解题思路2. Accepted 代码1. 题目 1.1 题目链接 http://poj.org/problem?id2287 1.2 题目大意 双方各有n匹战斗力各异的马,分别派出来PK,假设对方先出牌,我方后出,求我方最多能胜…

Python中的 List

关于List:最最最基本操作其他操作上的问题一、如何判断 list 重复二、根据 list 里面的每一个 list 的第一个元素排序三、 一个 list 给另一个 list 赋值四、list 与 nparray五、二维列表按列取元素报错汇总IndexError:list assignment Index out of rangeValueErro…

Netty的实现原理、特点与优势、以及适用场景

高并发编程系列 高并发编程系列:NIO、BIO、AIO的区别,及NIO的应用和框架选型 高并发编程系列:ConcurrentHashMap的实现原理(JDK1.7和JDK1.8) 高并发编程系列:CountDownLatch、Semaphore等4大并发工具类详解 高并发编程系列&…

拒绝无脑吹!从ACL20看预训练缺陷

星标/置顶小屋,带你解锁最萌最前沿的NLP、搜索与推荐技术文 | 舒意恒、兔子酱以 BERT 为代表作的预训练模型的研究热度一直很高,到 0202 年了,预训练的研究依旧层出不穷,而且 ACL 2020 Best Paper 荣誉提名也选择了这一主题的研究…

论文浅尝 | AMUSE: 基于 RDF 数据的多语言问答语义解析方法

来源:ISWC 2017链接:https://link.springer.com/content/pdf/10.1007%2F978-3-319-68288-4.pdf本文主要关注基于RDF数据的多语言问答任务中,对不同语言问句的语义分析工作。作者提出一种基于DUDES(Dependency-based Underspecified Discourse…

网易2018

网易2018数据分析(20道单选3道问答) 好评率是会员对平台评价的重要指标。现在需要统计2018年1月1日到2018年1月31日,用户’小明’提交的母婴类目"花王"品牌的好评率(好评率“好评”评价量/总评价量): 用户评…

贪心应用--汽车加油次数问题

文章目录1. 问题描述2. 解题思路3. 实现代码4. 测试结果1. 问题描述 已知汽车的油箱额定里程,到目的地的路途中各加油站距起点的距离,求如何加油,让加油的次数最少。 2. 解题思路 每次出发前检查下一个加油站有多远,车子能不能…

Pandas中的元素替换

# 序列中的元素替换 ser pd.Series([0, 1, 2, 3, 4, 5]) print(ser.replace(0, 6)) # 单个元素替换 print(ser.replace([0, 1, 2, 3, 4, 5], [5, 4, 3, 2, 1, 0])) # 列表替换 print(ser.replace({1: 11, 2: 22})) # 字典替换# DataFram中的元素替换 df pd.DataFrame({&qu…

最全多线程经典面试题和答案

Java实现线程有哪几种方式? 1、继承Thread类实现多线程2、实现Runnable接口方式实现多线程3、使用ExecutorService、Callable、Future实现有返回结果的多线程 多线程同步有哪几种方法? Synchronized关键字,Lock锁实现,分布式锁等…

论文浅尝 | Aligning Knowledge Base and Document Embedding Models

本文是我们于苏黎世大学合作的关注与知识图谱和文本对齐的论文,发表于ISWC2018.文本和知识图谱都包含了丰富的信息, 其中知识图谱用结构化的三元组表示信息,文本用自由文本形式表示信息,信息表示的差异给知识图谱和文本融合对齐造成了困难&am…

学会提问的BERT:端到端地从篇章中构建问答对

星标/置顶小屋,带你解锁最萌最前沿的NLP、搜索与推荐技术文 | 苏剑林机器阅读理解任务,相比不少读者都有所了解了,简单来说就是从给定篇章中寻找给定问题的答案,即“篇章 问题 → 答案”这样的流程,笔者之前也写过一些…