爬虫学习日记

引言:

1.语言:python

2.预备知识——python:爬虫学习前记----Python-CSDN博客

3.学习资源:【Python+爬虫】

html:

<!DOCTYPE html>
<html><head><title>czy_demo</title><meta charset="UTF-8"> <!-- 指定字符编码 --></head><body><h1>一级标题(h1~h6)</h1><p>普通文本<b>加粗</b><i>斜体</i><u>下划线</u></p><img src="1.jpg" width="500px"><br><a href="http://t.csdnimg.cn/DvHJ6" target="_blank">CSDN链接</a><p>这是多个span展示:<span style="background-color: bisque">span1</span><span style="background-color: aquamarine">span2</span></p><ol><li>有序列表</li><li>有序列表</li><li>有序列表</li></ol><ul><li>无序列表</li><li>无序列表</li><li>无序列表</li></ul><table border="1"><thead><tr>头部有几个就写几行tr</tr><tr>第二行头部标签</tr></thead><tbody><tr><td>第一行*单元格1</td><td>第一行*单元格2</td><td>第一行*单元格3</td></tr><tr><td>第二行*单元格1</td><td>第二行*单元格2</td><td>第二行*单元格3</td></tr></tbody></table></body>
</html>

爬虫代码

1.两个需要的包

from bs4 import BeautifulSoup
import requests

2.爬原代码

response = requests.get('http:.......')
print(response) #  响应
print(response.status_code) #  状态码---200[ok]
print(response.text) #  打印源码

3.爬指定的内容

response = requests.get('http:........')
content =response.text
soup = BeautifulSoup(content,"html.parser") # 解析器htmlall_p=soup.findAll("p",attrs={"class":""})
for p in all_p:print(p.string)all_p=soup.findAll("h3")
for p in all_p:p1=p.findAll("a")for p2 in p1:print(p2.string)

3.下载图片

from bs4 import BeautifulSoup
import requestsheaders={'User-Agent': 【替换成目标网页的User-Agent】
}
response = requests.get('http://data.shouxi.com/item.php?id=1239786',headers=headers)
response.encoding = 'GBK'
response.encoding = 'utf-8'
soup = BeautifulSoup(response.text,"html.parser") # 解析器html# print(response.text)i=soup.findAll("img")num=1;
for Img in i:img_url=Img.get("src")if not img_url.startswith('http:'):img_url="http:....【替换成网页地址】"+img_url # 将相对地址转换成绝对地址# 发送请求下载图片img_response = requests.get(img_url, headers=headers)with open(f'image.{num}.jpg', mode='wb') as f:f.write(img_response.content)print(f'图片已保存: images.{num}')num = num + 1

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/871024.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据丢失?不存在的!

今年3月份&#xff0c;AT&T遭遇了严重的数据泄露事件&#xff0c;导致7300万客户账户信息被泄露。泄露的信息包括客户的姓名、电话号码、邮寄地址等敏感资料&#xff0c;甚至部分客户的加密密码也被泄露&#xff0c;使得约760万AT&T用户的账户面临被劫持的风险。 此次…

android inflate 参数含义

在Android开发中&#xff0c;inflate 方法用于将 XML 布局文件转换为相应的 View 对象。在调用 inflate 方法时&#xff0c;有几个参数需要特别注意&#xff1a; resource (int resId): 布局资源文件的ID。通常是通过 R.layout.layout_name 这种形式指定的。 root (ViewGroup …

博客文章多平台发布工具

做过博客分享和自媒体的同学应该都知道&#xff0c;在多个平台上同步发布、更新自己的原创内容&#xff0c;是快速传播知识、提高用户触达率的有效方式。 然而&#xff0c;一篇文章要在N个平台上重复进行编辑、排版、图片/视频上传的苦恼&#xff0c;你一定经历过吧&#xff1…

递归函数遍历格式化字典

要对字典中的所有数值保留两位小数&#xff0c;可以使用递归函数遍历字典&#xff0c;并对所有数值进行格式化&#xff1a; def format_floats(data):if isinstance(data, dict):return {k: format_floats(v) for k, v in data.items()}elif isinstance(data, list):return [f…

从汇编层看64位程序运行——静态分析和动态分析入门

大纲 GDBIDA总结参考资料 之前一直谈各种相对宏观的工具怎么使用&#xff0c;比如Flink、RabbitMQ等。最近想聊聊比较微观的技术&#xff0c;用各种“显微镜”去看看运行在系统层的二进制码是什么样子。当然二进制码比较难以记忆&#xff0c;于是我会从二进制码的助记符——汇编…

408数据结构-图的应用2-最短路径 自学知识点整理

前置知识&#xff1a;最小生成树&#xff0c;图的遍历 最短路径 当图是带权图时&#xff0c;把从一个顶点 v 0 v_0 v0​到图中其余任意一个顶点 v i v_i vi​的一条路径所经过边上的权值之和&#xff0c;定位为该路径的带权路径长度&#xff0c;把带权路径长度最短的那条路径&…

centOS79中安装redis7.0

##red## &#x1f534; 大家好&#xff0c;我是雄雄&#xff0c;欢迎关注微信公众号&#xff0c;雄雄的小课堂。 一、前言 新服务器&#xff0c;一些环境是少不了要安装的&#xff0c;比如常见的redis&#xff0c;mysql&#xff0c;nginx等&#xff0c;今天&#xff0c;上次&a…

【Golang】map的使用

map声明的方式 //声明var m map[string]string//在使用map之前&#xff0c;先make&#xff0c;make的作用就是给map分配空间m make(map[string]string)m["lover"] "Yzx"m["friend1"] "Zxw"m["friend2"] "Zzc"…

C语言-gcc编译四步

gcc -E hello.c -o hello.i 预处理 gcc -S hello.i -o hello.s 编译 gcc -c hello.s -o hello.o 汇编 gcc hello.o -o hello.exe 链接

springboot增加过滤器后中文乱码

记录一下小问题 public class RepeatableHttpServletWrapper extends HttpServletRequestWrapper {private byte[] body;public RepeatableHttpServletWrapper(HttpServletRequest request) throws IOException {super(request);request.setCharacterEncoding("UTF-8&q…

泛微E-Cology WorkflowServiceXml SQL注入漏洞复现

0x01 产品简介 泛微e-cology是一款由泛微网络科技开发的协同管理平台,支持人力资源、财务、行政等多功能管理和移动办公。 0x02 漏洞概述 2024年7月,泛微官方发布了新补丁,修复了一处SQL注入漏洞。经分析,攻击者无需认证即可利用该漏洞,建议受影响的客户尽快修复漏洞。…

fortran快速排序算法,示例对一维数组进行排序

fortran快速排序算法&#xff0c;示例对一维数组进行排序 0. 引言1. 快速排序方法(QuickSqrt)代码实现2. 结语 0. 引言 快速排序&#xff08;QuickSort&#xff09;是一种常用的排序算法&#xff0c;采用分治策略实现。它的基本思想是通过一趟排序将待排序的数据分割成独立的两…

Lingo学习(一)——基本界面、解方程、变量

一、Lingo基本界面 【步骤】 1.双击打开Lingo 2.弹出一个对话框,点击Cancel左边的Never Register即可,其余内容用不到。 3:界面自动弹出名为“Lingo Model – Lingo 1”的窗口,用于书写代码。 4:以解方程的题目:x12为例,写完代码后,点击“红色的靶心”运行程序。 5:首先Lin…

Redis的配置和优化

一.Redis介绍 Redis数据库是一个非关系型数据库 1.关系型数据库和非关系型数据库的区别、 &#xff08;1&#xff09;关系型数据库 关系型数据库是一个结构化的数据库&#xff0c;创建在关系模型基础上&#xff0c; 一般面向于记录。它借 助于集合代数等数学概念和方法来处…

第1章 初识 Express

1.1 什么是 Express Express 是一个简洁而灵活的 Node.js Web 应用框架&#xff0c;提供了一系列强大的特性用于开发 Web 和移动应用。它基于 Node.js 构建&#xff0c;并且与 Node.js 的非阻塞 I/O 模型无缝集成&#xff0c;使其非常适合于构建高性能的 Web 应用。 主要特点…

【办公软件】PPT使用轮子动画做圈动作

在实际的PPT制作中&#xff0c;我们可能会用到画圈的动作来强调重点。如下所示为最基础的画圈动作。 那么如何来做一个这样的动作呢&#xff1f; 首先在PPT中选择插入&#xff0c;选择形状椭圆 然后按Shift画图&#xff0c;即可画出一个正圆 然后使用绘图工具&#xff0c;将开关…

鸿蒙开发:Universal Keystore Kit(密钥管理服务)【密钥证明介绍及算法规格】

密钥证明介绍及算法规格 HUKS为密钥提供合法性证明能力&#xff0c;主要应用于非对称密钥的公钥的证明。 基于PKI证书链技术&#xff0c;HUKS可以为存储在HUKS中的非对称密钥对的公钥签发证书&#xff0c;证明其公钥的合法性。业务可以通过系统提供的根CA证书&#xff0c;逐级…

Photoshop套索工具使用指南:解锁自由选区的艺术

在Adobe Photoshop的强大工具箱中&#xff0c;套索工具组是每位图像处理爱好者与专业人士的得力助手。这组工具&#xff0c;包括套索工具、多边形套索工具和磁性套索工具&#xff0c;为用户提供了高度灵活的选择区域方式&#xff0c;无论是处理复杂的图像边缘还是进行精细的抠图…

VMware安装Ubuntu以及利用vscode远程Ubuntu

一、VMware安装Ubuntu &#xff08;1&#xff09;VMware安装Ubuntu主要参考此文VMware虚拟机安装Ubuntu22.04图文教程&#xff08;超详细&#xff01;&#xff01;&#xff01;&#xff09;。 &#xff08;2&#xff09;VMware密钥参考此文24年VMware 17密钥(附下载链接&#…

SpringBoot中JPA方法命名规则

Spring Data JPA 提供了一种基于方法名的查询创建机制&#xff0c;允许通过定义 Repository 接口中的方法名称来自动创建对应的数据库查询语句。 这种方法避免了硬编码 SQL 语句&#xff0c;提高了开发效率和代码的可读性。 以下是 Spring Data JPA 方法命名规则的一些关键点…