urllib爬虫案例(实战)

#urllib的爬虫案例-通过最原始的爬虫方式 爬虫之前如果抓包工具Fiddler证书安装失败,采用以下方法

1、打开cmd 2、进入fillder的目录 如下: 里面的路径改成你自己的安装路径

cd /d "D:\Program Files (x86)\Fiddler2"

然后再执行下面命令

makecert.exe -r -ss my -n "CN=DO_NOT_TRUST_FiddlerRoot, O=DO_NOT_TRUST, OU=Created by http://www.fiddler2.com" -sky signature -eku 1.3.6.1.5.5.7.3.1 -h 1 -cy authority -a sha1 -m 120 -b 

1.爬取百度贴吧数据


import urllib #用于进行中文编码
import urllib2  #用于进行爬虫核心处理#定义一个函数,用于爬取对应的数据
def load_url(url,file_name):print('开始爬取%s的内容'%file_name)#爬取程序my_headers={'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.104 Safari/537.36',}request = urllib2.Request(url,headers=my_headers)content = urllib2.urlopen(request).read()print('爬取%s的内容完成!'%file_name)return content#定义一个函数,用于保存数据
def save_data(data,file_name):print('开始保存%s的内容'%file_name)with open(file_name,'w') as f:f.write(data)print('保存%s的内容完成!'%file_name)#定义函数,进行爬虫的核心处理功能
def spider(url,kw,begin,end):for page in range(begin,end+1):#计算需要的页码pn = (page-1)*50#进行kw参数的编码kw = urllib.urlencode({'kw':kw})#拼接url地址full_url = url + kw +'&pn=' +str(pn)#定义一个保存文件的名称file_name = '网页'+str(page) +'.html'#开始爬取数据html=load_url(full_url,file_name)#保存数据到文件save_data(html,file_name)#主程序运行入口
if __name__ == '__main__':#用户输入相关数据url='http://tieba.baidu.com/f?'kw = raw_input('请输入要爬取的贴吧名称:')begin = int(raw_input('请输入开始页码:'))end = int(raw_input('请输入结束页码:'))#调用爬虫开始执行spider(url,kw,begin,end)

 2.爬取豆瓣电影数据

import urllib
import urllib2url = 'https://movie.douban.com/j/new_search_subjects?sort=T&range=0,10'#要传递的post方式嗯对数据,有可能会有多组数据
submit_data = {'start':20,'tags':'喜剧'
}
#编码
data = urllib.urlencode(submit_data)#构造请求头,创建请求对象
headers = {"Accept" : "application/json, text/plain, */*","User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.7 Safari/537.36","Accept-Language" : "zh-CN,zh;q=0.8"
}request = urllib2.Request(url,data,headers)#发送请求,获取服务器响应数据
response = urllib2.urlopen(request)#获取爬取到的数据
content = response.read()#保存数据
with open('movies.json','w') as f:f.write(content)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/820156.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

16CFR1512测试标准儿童车电动车要求

16 CFR 1512的测试项目内容 欢迎咨询 逸散而雾散四物五一就把 Mechnical requiements 机械性能要求 (a) Assembly 装配 (b) Sharp edges 锐边 (c) Integrity 强度 (d) Attachment hardware 紧固件 (e)-(f) Reserved 保留 (g) Excluded Area 排除区域 (h) Reserved 保留 (i) Con…

知道做到 一篇总结学习方法的笔记

元数据 [!abstract] 知道做到:跃迁式学习 书名: 知道做到:跃迁式学习作者: 彼得•霍林斯简介: 学习是改善你的生活环境、成为你想成为的人的关键。科学的方法能加速学习进程,让你事半功倍。技能、信息和能力…

C 代码实现链栈

#include <stdio.h> #include <stdlib.h> #include <string.h> #include <stdbool.h>#define MAXSIZE 100//链栈结点结构 typedef struct LinkStack {int val;struct LinkStack* next; }LinkStack;//打印所有栈中元素 void Print(LinkStack* s) {while…

Java后端HR面

文章目录 自我介绍项目介绍未来职业规划说一下所了解的数据结构和算法为什么选择javajava学习过程中印象最深的事情过去发生的最有挑战性的事、说说对你自己影响最大的事情介绍一下你的关系好的朋友们的性格社团学习生活&#xff0c;如何规划情景&#xff1a;leader给了陌生任务…

攻防世界13-simple_php

13-simple_php <?php show_source(*__FILE__*);//高亮文件 include("config.php");//文件包含在内 $a$_GET[a];//获得a $b$_GET[b];//获得b if($a0 and $a){ //判断a是否满足条件echo $flag1; //满足就输出flag1 } if(is_numeric($b)){ //判断b的条件&#x…

yolov8目标检测 部署瑞芯微rk3588记录

1. 前置条件 本地电脑系统&#xff0c;ubuntu20.04 训练代码&#xff1a; 训练代码下载的ultralytics官方代码 SHA&#xff1a;6a2fddfb46aea45dd26cb060157d22cf14cd8c64 训练代码仅做数据修改&#xff0c;类别修改&#xff0c;代码结构未做任何修改 需要准备的代码&#…

AppleScript初体验,让你的mac实现自动化UI操作

AppleScript 简介 AppleScript是苹果公司开发的一种脚本语言&#xff0c;用于操作MacOS及其应用程序&#xff0c;在实现MacOS自动化工作方面非常给力。 我们可以使用AppleScript用来完成一些重复琐碎的工作&#xff0c;AppleScript具有简单自然的语法&#xff0c;另外系统也提…

【DM8】ET SQL性能分析工具

通过统计SQL每个操作符的时间花费&#xff0c;从而定位到有性能问题的操作&#xff0c;指导用户去优化。 开启ET工具 INI参数&#xff1a; ENABLE_MONITOR1 MONITOR_SQL_EXEC1 查看参数 select * FROM v$dm_ini WHERE PARA_NAMEMONITOR_SQL_EXEC;SELECT * FROM v$dm_ini WH…

系统学c#:1、基础准备(软件下载与安装)

一、Vs软件下载与安装 访问Visual Studio官方网站&#xff1a; https://visualstudio.microsoft.com/zh-hans/downloads 下载Visual Studio 运行exe文件&#xff0c;点击“继续” 初始文件安装完成后选择我们需要安装的项&#xff0c;并勾选好必要的单个组件&#xff0c;设…

android热点名称的默认值

热点默认名称后面跟的随机数 WifiApConfigStore.java这儿可以设置热点的默认随机数&#xff0c;原生系统默认是4位 private static final int RAND_SSID_INT_MIN 1000; private static final int RAND_SSID_INT_MAX 9999; private static int getRandomIntForDefaultSsid() …

【Java框架】Spring框架(二)——Spring基本核心(AOP)

目录 面向切面编程AOPAOP的目标&#xff1a;让我们可以“专心做事”专心做事专心做事解决方案1.0专心做事解决方案2.0蓝图 AOP应用场景AOP原理AOP相关术语术语理解 AOP案例实现前置/后置/异常/最终增强的配置实现1.依赖2.业务类3.日志类4.配置切入点表达式匹配规则举例 环绕增强…

Java开发从入门到精通(二十):Java的面向对象编程OOP:泛型

Java大数据开发和安全开发 &#xff08;一&#xff09;Java的泛型 &#xff08;一&#xff09;Java的泛型

共享负载均衡后端的主机健康检查状态是异常的解决

场景&#xff1a;运维同事配置了后端主机&#xff0c;但是健康检查显示异常。其中有一台主机是正常的&#xff0c;权重为1。另外两台健康检查异常的权重为0。 curl 内网地址和端口是可以正常访问业务的&#xff0c;返回的状态码也是200。后端排查日志&#xff0c;可以发现正常…

[linux]进程控制——进程终止

一、main函数的返回值 我们在编写C语言的程序时&#xff0c;通常会这样写&#xff1a; int main() {return 0; } 那么我们为什么要返回&#xff08;return&#xff09;0 呢&#xff1f; 其实&#xff0c;main函数也是一个函数&#xff0c;它也会被调用&#xff0c;所以谁调…

牛客周赛 Round 39(A,B,C,D,E,F,G)

比赛链接 官方题解&#xff08;视频&#xff09; B题是个贪心。CD用同余最短路&#xff0c;预处理的完全背包&#xff0c;多重背包都能做&#xff0c;比较典型。E是个诈骗&#xff0c;暴力就完事了。F是个线段树。G是个分类大讨论&#xff0c;出题人钦定的本年度最佳最粪 题目…

RT-Thread学习

RT-Thread三个版本——标准版本 RT-Thread&#xff0c;全称是Real Time-Thread&#xff0c;顾名思义&#xff0c;它是一个嵌入式实时多线程操作系统&#xff0c;基本属性之一是支持多任务&#xff1a;一个处理器核心在某一时刻只能运行一个任务&#xff0c;由于每次对一个任务…

HCIP【ospf综合实验】

目录 实验要求&#xff1a; 实验拓扑图&#xff1a; 实验思路&#xff1a; 实验步骤&#xff1a; 一、划分网段 二、配置IP地址 三、搞通私网和公网 &#xff08;1&#xff09;先搞通私网&#xff08;基于OSPF协议&#xff0c;在各个路由器上进行网段的宣告&#xff0c…

实现智能水控 | 基于ACM32 MCU的分体式水控方案

分体式水控概述 分体式水控是一种常见的水控系统&#xff0c;它的工作原理是通过水的流动来控制水的供应和排放&#xff0c;该系统一般由两部分组成&#xff1a;控制器和水阀。控制器负责监测水的流量和压力&#xff0c;根据设定的参数来控制水阀的开和关&#xff0c;从而实现水…

2024认证杯数学建模A题保暖纤维保暖能力原创论文讲解(含完整python代码)

大家好呀&#xff0c;从发布赛题一直到现在&#xff0c;总算完成了认证杯数学中国数学建模网络挑战赛第一阶段A题目保暖纤维的保暖能力完整的成品论文。 本论文可以保证原创&#xff0c;保证高质量。绝不是随便引用一大堆模型和代码复制粘贴进来完全没有应用糊弄人的垃圾半成品…

docker部署chatgpt步骤

docker部署 1.启动docker服务 sudo service docker start 2.查看镜像 docker ps -a 3. 运行命令docker run --name chatgpt-web -d -p 1002:3002 --env OPENAI_API_KEYsk-xxxxxx --env AUTH_SECRET_KEY验证密码 --env OPENAI_API_BASE_URLhttps://api.openai.com registry.a…