项目十三:搜狗——python爬虫实战案例

根据文章项目十二:简单的python基础爬虫训练-CSDN博客的简单应用,这一次来升级我们的技术,那么继续往下看,希望对技术有好运。

还是老样子,按流程走,一条龙服务,嘿嘿。

第一步:导入需要的库——requests库

import requests

第二步:指定网址首页,看你个人选择,这里用搜狗,网址为搜狗搜索引擎 - 上网从搜狗开始

url = 'https://www.sogou.com/'

第三步:发送get请求信息

response = requests.get(url = url)

第四步:输出响应信息

print(req.text)

完整代码如下

import requests # 导入requests模块
url = 'https://www.sogou.com' # 要爬取的网址
req = requests.get(url) # 发起请求
print(req.text) # 输出响应信息

第五步

输出结果

ok,就当给未来的自已上一道保险杠,免得自已不知道写的啥。🎁🎁🎁🎁

嗯,这一次我们要爬取搜狗指定词条所对应的搜索结果,还是老样子,继续往下走

第一步:处理url携带的参数,封装到字典

kw = input('enter a word:')
param = {'query':kw
}

参考来源(图中第三步可以不用,看个人需要)

第二步:伪装请求头,模拟用户行为,封装到字典

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36'
}

注意这个请求头都是在浏览器标头中复制找到即可,但是有时候会发生变化,需要实际运用。如图

第三步:发送请求

response = requests.get(url = url, params = param, headers = headers)

第四步:输出信息

page_text = response.text
print(len(page_text))

完整代码如下

import requests 
url = 'https://www.sogou.com/web'
kw = input('enter a word:') #输入搜索词
param = {'query':kw #搜索词
}
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36'
}
response = requests.get(url = url, params = param, headers = headers)
page_text = response.text
print(len(page_text))

输出结果

第五步:存储信息

代码如下

fileName = 'kw' + '.html'
with open(fileName, 'w', encoding='utf-8') as fp:fp.write(page_text)

跟上一篇文章代码操作一样,自行体会,嘿嘿

好了,简单的案例我们能够简单应用,后续会不定时分享小小心得,期待有好运到来🎁💖

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/18445.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

华为诺亚等发布MagicDrive3D:自动驾驶街景中任意视图渲染的可控3D生成

文章链接:https://arxiv.org/pdf/2405.14475 项目链接:https://flymin.github.io/magicdrive3d 虽然可控生成模型在图像和视频方面取得了显著成功,但在自动驾驶等无限场景中,高质量的3D场景生成模型仍然发展不足,主…

Linux网络编程:应用层协议|HTTP

前言: 我们知道OSI模型上层分为应用层、会话层和表示层,我们接下来要讲的是主流的应用层协议HTTP,为什么需要这个协议呢,因为在应用层由于操作系统的不同、开发人员使用的语言类型不同,当我们在传输结构化数据时&…

【全开源】宇鹿家政系统(FastAdmin+ThinkPHP+原生微信小程序)

:助力家政行业数字化升级 一、引言:家政服务的新篇章 随着移动互联网的普及和人们生活水平的提高,家政服务的需求日益增长。为了满足这一市场需求,并推动家政行业的数字化升级,我们特别推出了家政小程序系统源码。这…

excel 点击单元格的内容 跳转到其他sheet设置

如图点击1处跳转到2 按照如下图步骤操作即可

电机控制系列模块解析(25)—— 过压抑制与欠压抑制

一、概念解析 变频器作为一种重要的电机驱动装置,其内置的保护功能对于确保系统安全、稳定运行至关重要。以下是关于变频器过压抑制、欠压抑制(晃电抑制)、发电功率限制、电动功率限制等保护功能的详细说明: 过压抑制 过压抑制是…

今日早报 每日精选15条新闻简报 每天一分钟 知晓天下事 5月29日,星期三

每天一分钟,知晓天下事! 2024年5月29日 星期三 农历四月廿二 1、 首个未成年人游戏退费标准发布:监护人与网游服务提供者将按错担责。 2、 六部门联合印发通知:鼓励加快高清超高清电视机等普及、更新。 3、 神舟十八号航天员乘…

AI播客下载:Acquired podcast每个公司都有一个故事

"Acquired Podcast" 是一档专注于深度解析科技行业和企业发展历程的播客节目,由Ben Gilbert和David Rosenthal主持。其口号是:Every company has a story.《Acquired》每一集都围绕一个特定的主题或公司进行讨论。它以独特的视角和深入的分析&…

Rohm公司参展欧洲PCI盛会

​德国历史悠久的文化名城纽伦堡,即将迎来一场科技盛宴——欧洲PCI展览会。在这个为期三天的盛会中(6月11日至13日),Rohm公司将以璀璨之姿,特别聚焦宽带隙(WBG)设备的璀璨光芒。 此次&#xff0…

气密检测中泄漏率的质量流量与体积流量的转换

对于R-134a等制冷剂,泄漏率通常表示为质量流量(每年的逸出质量)而不是体积流量(特定时间段内给定压力下的逸出质量)。因此,通过制冷剂的年泄漏量来定义泄漏级别,常用的单位为g/a。以某款车型为例…

嵌入式linux系统中NFS文件系统挂载详细实现

大家好,今天主要给大家分享一下,如何利用linux系统实现NFS文件系统挂载的方式与实现。 第一:linux-NFS挂载的目的 1、掌握 Ubuntu 系统 NFS 文件共享服务的安装及配置 2. 掌握嵌入式 Linux 系统通过 NFS 共享服务和 X86 宿主机进行数据共享,文件共享的方法。 …

sysbench安装(在线离线)

简介 sysbench是一个多线程基准测试工具,它支持硬件(CPU、内存、I/O)、数据库基准压测等2种测试手段,用于评估系统的基本性能。本篇文章主要介绍sysbench在线和离线2种安装方法,并将离线编译时发生的异常记录到FAQ&…

Filebeat进阶指南:核心架构与功能组件的深度剖析

🐇明明跟你说过:个人主页 🏅个人专栏:《洞察之眼:ELK监控与可视化》🏅 🔖行路有良友,便是天堂🔖 目录 一、引言 1、什么是ELK 2、FileBeat在ELK中的角色 二、Fil…

触摸屏是输入设备还是输出设备?

从功能上讲,触摸屏理应属于输入设备,之所以有很多用户会误会它是输出设备,是因为将其与“触摸显示屏”搞混了,以手机屏幕为例,它并不是单层屏幕,而是有多个不同功能和作用组成的集成屏,这类带有…

HCIP的学习(24)

第七章,VLAN—虚拟局域网 ​ 通过在交换机上部署VLAN技术,将一个规模较大的广播域在逻辑上划分成若干个不同的、规模较小的广播域。 ​ IEEE 802.1Q标准----虚拟桥接局域网标准----Dot1Q标准 标签协议标识符:0x8011(代表数据帧是8…

【文献阅读】移动边缘计算中基于CNN模型分割的计算适配和负载均衡研究_黄煜

论文原链接:移动边缘计算中基于CNN模型分割的计算适配和负载均衡研究 缩写词 MEC:移动边缘计算; CNN:卷积神经网络; QoE:体验质量; LB:负载均衡; ITM:反变换…

K8s service 进阶

文章目录 K8s service 进阶Service 工作逻辑Service 具体实现Service 资源类型ClusterIPNodePortLoadBalancerExternalName Service 与 EndpointEndpoint 与 容器探针自定义Endpoint Service 相关字段sessionAffinityexternalTrafficPolicyinternalTrafficPolicypublishNotRead…

Chisel入门——在windows下vscode搭建|部署Scala2.13.3开发环境|用Chisel点亮FPGA小灯

文章目录 前言一、vscode搭建scala开发环境1.1 安装Scala官方插件Scala Syntax1.2 创建hello_world.scala文件1.3 确认java的版本(博主使用的是1.8)1.4 下载Scala Windows版本的二进制文件1.5 配置环境变量1.6 交互模式测试一下1.7 vscode运行scala 二、windows安装sbt2.1 下载…

全屏后 element-ui 组件不显示

文章目录 问题分析ElementUI 解决方案ElementPlus 解决方案 注意 问题 上篇我们说到如何 将 DIV 全屏展示 在使用将页面中指定的 DIV 全屏展示后,出现全屏后 element-ui 组件不显示,全屏后展示的提示信息是没有的,如下如所示: 全…

Docker 入门版

目录 1. 关于Docker 2. Dockr run命令中常见参数解读 3. Docker常见命令 4. Docker 数据卷 5. Docker本地目录挂载 6. 自定义镜像 Dockerfile 语法 自定义镜像模板 Demo 7. Docker网络 1. 关于Docker 在docker里面下载东西,就是相当于绿色面安装板&#x…

视频智能分析平台LntonAIServer视频监控管理平台裸土检测算法的重要性与应用

随着科技的飞速发展,人工智能技术在各个领域的应用越来越广泛。其中,LntonAIServer裸土检测算法作为一种先进的技术手段,已经在农业、环境保护等领域取得了显著的成果。本文将探讨LntonAIServer裸土检测算法的重要性及其在实际应用中的优势。…