python小甲鱼爬虫妹子_【Python学习日记】B站小甲鱼:爬虫

Web Spider

Python 如何访问互联网

URL + lib -->urllib

URL的一般格式为 protocol://hostname[:port] / /path /[;parameters][?query]#fragment,其中[]为可选项

URL由三部分组成

第一部分是协议

第二部分是存放资源的服务器的域名系统或IP地址(有时候要包含端口号,各种传输协议都有默认的端口号)

第三部分是资源的具体地址,如目录或文件名

urllib是python的一个包

下面这个程序展示了获取百度新闻页面的网页数据的程序

importurllib.request

response= urllib.request.urlopen('http://news.baidu.com/')

html=response.read()

html= html.decode('utf-8')print(html)

获得的response是二进制的,所以需要通过utf-8解码

练习   从placekitten上保存一张猫猫的图片

importurllib.request

response= urllib.request.urlopen('http://placekitten.com/g/500/600')

cat_img=response.read()

with open('cat_500_600.jpg','wb') as f:

f.write(cat_img)

首先urlopen的参数 可以是一个字符串 也可以是一个request 对象

因此代码也可以写作把Request实例化

importurllib.request

req= urllib.request.Request('http://placekitten.com/g/500/600')

response=urllib.request.urlopen(req)

cat_img=response.read()

with open('cat_500_600.jpg', 'wb') as f:

f.write(cat_img)

Python提交POST表单访问有道翻译

爬有道词典,但是没有成功,原因是有道翻译添加了反爬机制salt和sign。

importurllib.requestimporturllib.parse

url1= 'http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule'data= {'i': '你好!', 'type': 'AUTO', 'doctype': 'json', 'version': '2.1', 'keyfrom': 'fanyi.web', 'ue': 'UTF-8','typoresult': 'true'}

data= urllib.parse.urlencode(data).encode('utf-8') #把data编码

response= urllib.request.urlopen(url1, data) #发出请求,得到相应

html = response.read().decode('utf-8') #read之后得到的是utf-8的格式,解码成Unicode的形式

print(html)

Request 有一个heads的参数,heads的格式是字典

修改heads可以通过两个方式修改

1.通过Request的headers参数修改

2.通过Request.add_header()方法修改

为了使爬虫更像人类,可以通过

1.time来控制时间戳,限制单位时间内IP的访问次数

import time

...

time.sleep(5)

2.代理

通过代理去访问服务器

1.参数是一个字典{‘类型’ : ‘代理ip:端口号’}

proxy_support = urllib.request.ProxyHandler({})

2.定制一个opener

opener = urllib.request.build_opener(proxy_support)

3.1.安装opener

urllib.request.install_opener(opener)

3.2.调用opener

opener.open(url)

教程使用的网站现在都设置了复杂的反爬机制了,所以运行没有成功。

importurllib.request

url= 'http://www.whatismyip.com.tw'proxy_support= urllib.request.ProxyHandler({'http': '221.122.91.66:80'})

opener=urllib.request.build_opener(proxy_support)

opener.addheaders= {'User-Agent', 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)'

'Chrome/84.0.4147.105 Safari/537.36'}

urllib.request.install_opener(opener)

response=urllib.request.urlopen(url)

html= response.read().decode('utf-8')print(html)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/298419.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【转】了解SQL Server触发器及触发器中的事务

引述 首先, 说下我写篇文章的目的,我希望能把我对触发器的理解,分享出来与你一起学习。如果你有对触发器和事务的概念,有些了解,这篇文章,对你来说会是很简单,或能让你更进一步的了解触发器里面…

Java将mysql输出csv_使用Java将大量数据从数据库导出到.csv时出...

我,谢谢您的关注.我想使用Java将大量数据,实际上是大量数据(600万行)导出到.csv文件.该应用程序是使用toplink(ojdbc14)的JPA摆动应用程序.我尝试使用:但是BufferedWriterRandomAccessFile的FileChannel等等,但是尽管我将最大堆大小设置为800m(-Xmx800m),但是内存消…

Oracle interview

Oracle Applications General Questions How can you restrict the access (to oracle apps) to A GROUP OF users using personalization?How do you enable trace/debug in APPS?What are custom events in apps and how to you enable/disable it?What is diagnostics in…

ASP.Net Core Web API 如何返回 File。

咨询区 Jan Kruse&#xff1a;我想在 ASP.Net Web API 中返回 File 文件&#xff0c;我目前的做法是将 Action 返回值设为 HttpResponseMessage&#xff0c;参考代码如下&#xff1a;public async Task<HttpResponseMessage> DownloadAsync(string id) {var response ne…

python导包路径问题_python的导包问题

有事会遇到在python代码中导入包错误问题&#xff0c;本文简单对python包的引入做简单介绍 简单说,我认为python导包一共有3种情况,分别是: 要导的包与当前文件在同一层 要导的包在当前文件的底层(就是与当前文件夹同级的文件夹里) 要导的包在当前文件的上层 1、要导的包与当前…

垃圾代码还能出圈?手把手教你写垃圾代码,从入门到精通!

全世界只有3.14 % 的人关注了爆炸吧知识转自&#xff1a;机器之心参与&#xff1a;思如果说到什么是好代码&#xff0c;我们肯定都能说出一堆规则&#xff0c;例如使用一致的格式和缩进、使用清晰的变量名和方法名、在必要时提供文档与注释、不要过度精简代码等等。但是对于什么…

winform能连MySQL吗_c# winform中怎么连接mysql

匿名用户1级2018-11-19 回答static string myConnstr "serverip;user idroot; passwordpasswd;databasedb;poolingfalse;charsetgbk;";//System.Windows.Forms.Control.CheckForIllegalCrossThreadCalls false;public static MySqlConnection GetMyConnection(){My…

User Experience Kit

User Experience Kit&#xff08;UEK&#xff09; 是微软官方发布的&#xff0c;集成了有关如何使用 Silverlight 3, Silverlight 4 实现有关媒体发布、数字化营销、以及使用 Silverlight 构建客户端的最新案例、白皮书以及部分源码。从这里下载 UEK 的概览. 网站地址&#xff…

java以Blob形式存储,读取图片并在jsp页面显示图片流

2019独角兽企业重金招聘Python工程师标准>>> 废话少说代码伺候&#xff1a; 封装好的ImageUtil类&#xff1a;目的读取本地的图片文件并存入数据库&#xff0c;然后读出数据库中以Blob形式存储的图片保存到指定目录。 1 package org.blog.util; 2 import java.io.F…

“ShardingCore”是如何针对分表下的分页进行优化的

首先还是要给自己的开原框架打个广告 sharding-core 针对efcore 2版本的分表组件&#xff0c;首先我们来快速回顾下目前市面上分表下针对分页常见的集中解决方案分表解决方案解决方案skip<100skip<10000skip>10000优点缺点内存分表速度快O(n)&#xff0c;nskip*分表数…

docker pull 私有_【赵强老师】管理Docker镜像

一、什么是Docker的镜像Docker 是一个开源的应用容器引擎&#xff0c;让开发者可以打包他们的应用以及依赖包到一个可移植的容器中&#xff0c;然后发布到任何流行的Linux机器上&#xff0c;也可以实现虚拟化&#xff0c;容器是完全使用沙箱机制&#xff0c;相互之间不会有任何…

看着女朋友的肚子,以肉眼可见的速度大起来......

1 女生的肚子有多神奇▼2 你的论文除了导师真没人想要▼3 脑子&#xff1a;各部门注意&#xff01;这次一定可以&#xff01;手&#xff1a;&#xff1f;&#xff1f;&#xff1f;▼4 这孩子可能是高估了自己的大长腿▼5 到处说前男友死了算违法吗&#xff1f;▼6 男人妖…

《Android开发从零开始》——25.数据存储(4)

本节课的主要内容有&#xff1a;1.讲解Android中于I/O流有关的两个方法2.演示如何在Android中读写文件 课程下载地址&#xff1a;http://u.115.com/file/clc87txb课件及源码下载地址&#xff1a;http://u.115.com/file/aq8w11l7转载于:https://www.cnblogs.com/coolszy/archive…

添加CSS的四种方式

1、直接添加在HTML的标识符&#xff08;标签&#xff09;里&#xff1a; <p style"color: blue;font-size: 12pt">样式</p> 2、添加在HTML的头信息标识符<head>里&#xff1a; <head> <style type"text/css"> …… </sty…

违反GPL协议,法院判罚了!国内首例

整理 | 一君出品 | OSC开源社区&#xff08;ID&#xff1a;oschina2013&#xff09;近日&#xff0c;一起关于 GPL 版权纠纷案裁判文书公示。一审判决书显示&#xff0c;GPL3.0 协议是一种民事法律行为&#xff0c;具有合同性质&#xff0c;可认定为授权人与用户间订立的著作权…

开篇 — 【面向对象设计模式学习】

说明&#xff1a; 关于设计模式的文章网上已经很多了&#xff0c;本人也只是想参考别人的文章来系统地学习一下设计模式&#xff0c;因此&#xff0c;这个系列并不是一个系列教程&#xff0c;而仅仅是作为本人学习设计模式的一个学习笔记&#xff0c;此外&#xff0c;由于本人能…

python中random什么意思_python中的random

random.randint(a,b) 用于生成一个指定范围内的整数&#xff0c;a为下限&#xff0c;b为上限&#xff0c;生成的随机整数a<n<b;若ab&#xff0c;则na&#xff1b;若a>b&#xff0c;报错 import random random.randint(10,20)#输入18 random.randint(10,10)#输出10 ran…

魔方数算法

魔方数是什么,就是从1...x个自然数排列,每一行,每一列,对角线的和都相等的矩阵(方阵?). 我有一些想法,但是暂时还没有找到解决的灵活方案. 首先,每一行相当,那就是数列的总数Z/行数z (这个是行,列,对角线的统一和). 列的情况也类似Z/列数z 对角线的情况比较复杂,找不到规律.但…

又来了!深度学习PyTorch与TensorFlow到底哪家强?

全世界只有3.14 % 的人关注了爆炸吧知识自从2012年深度学习再一次声名鹊起以来&#xff0c;许多机器学习框架都争先恐后地要成为研究人员和行业从业者的新宠。面对如些众多的选择&#xff0c;人们很难判断最流行的框架到底是什么。在某些情况下&#xff0c;深度学习或深度迁移学…

mysql从多个表查询数据类型_MySQL 之 多表查询

阅读目录一.多表联合查询#创建部门CREATE TABLE IF NOT EXISTSdept (didint not null auto_increment PRIMARY KEY,dnameVARCHAR(50) not null COMMENT 部门名称)ENGINEINNODB DEFAULTcharset utf8;#添加部门数据INSERT INTO dept VALUES (1, 教学部);INSERT INTO dept VALUES …