Python网络爬虫:从入门到实战

        Python以其简洁易用和强大的库支持成为网络爬虫开发的首选语言。本文将系统介绍Python网络爬虫的开发方法,包括基础知识、常用工具以及实战案例,帮助读者从入门到精通。


什么是网络爬虫?

网络爬虫(Web Crawler)是一种自动化程序,用于抓取网页内容。爬虫通过模拟浏览器行为访问网站,将所需的数据提取出来并保存,广泛应用于数据分析、搜索引擎和机器学习等领域。


开发网络爬虫的基本步骤

  1. 明确目标:确定需要抓取的数据和目标网站。
  2. 分析网站:通过浏览器开发者工具分析网页结构,确定数据所在的HTML标签和属性。
  3. 发送请求:使用HTTP库发送请求获取网页内容。
  4. 解析数据:使用解析库提取目标数据。
  5. 保存数据:将数据存储到文件或数据库中。

常用工具和库

1. requests

requests是一个简单且功能强大的HTTP请求库,用于发送GET和POST请求。

安装方法:

pip install requests

示例代码:

import requestsurl = "https://example.com"
response = requests.get(url)
if response.status_code == 200:print(response.text)

2. BeautifulSoup

BeautifulSoup是一个HTML和XML解析库,适合从网页中提取特定数据。

安装方法:

pip install beautifulsoup4

示例代码:

from bs4 import BeautifulSouphtml = "<html><body><h1>Hello, world!</h1></body></html>"
soup = BeautifulSoup(html, 'html.parser')
print(soup.h1.text)

3. lxml

lxml是一个快速高效的HTML/XML解析库,支持XPath语法。

安装方法:

pip install lxml

示例代码:

from lxml import etreehtml = "<html><body><h1>Hello, world!</h1></body></html>"
tree = etree.HTML(html)
print(tree.xpath('//h1/text()'))

4. Scrapy

Scrapy是一个功能强大的爬虫框架,适合开发复杂的爬虫项目。

安装方法:

pip install scrapy

示例代码:

scrapy startproject myproject

实战案例:爬取豆瓣电影 Top250

1. 分析目标

目标是抓取豆瓣电影 Top250 的电影名称、评分和评论人数。

目标网址:https://movie.douban.com/top250

2. 创建爬虫脚本

完整代码:

import requests
from bs4 import BeautifulSoup
import csvdef fetch_page(url):headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'}response = requests.get(url, headers=headers)return response.textdef parse_page(html):soup = BeautifulSoup(html, 'html.parser')movies = []for item in soup.find_all('div', class_='item'):title = item.find('span', class_='title').textrating = item.find('span', class_='rating_num').textcomments = item.find('div', class_='star').find_all('span')[-1].textmovies.append([title, rating, comments])return moviesdef save_to_csv(data, filename='movies.csv'):with open(filename, 'w', newline='', encoding='utf-8') as file:writer = csv.writer(file)writer.writerow(['Title', 'Rating', 'Comments'])writer.writerows(data)def main():base_url = "https://movie.douban.com/top250?start={}"all_movies = []for start in range(0, 250, 25):url = base_url.format(start)html = fetch_page(url)movies = parse_page(html)all_movies.extend(movies)save_to_csv(all_movies)if __name__ == '__main__':main()

3. 运行代码

运行脚本后会生成一个movies.csv文件,包含抓取的电影信息。


注意事项

1. 反爬措施

许多网站会部署反爬虫机制。以下是常见应对方法:

  • 模拟浏览器行为:添加请求头,设置User-Agent
  • 延时访问:使用time.sleep避免过于频繁的请求。
  • 代理IP:使用代理池避免IP被封。

示例:设置请求头和延时访问

import time
headers = {'User-Agent': 'Mozilla/5.0'
}
response = requests.get(url, headers=headers)
time.sleep(1)  # 每次请求间隔1秒

2. 法律和道德

在抓取数据前,请确保:

  • 遵守目标网站的robots.txt规则。
  • 数据用于合法目的,不违反隐私和版权法规。

进阶:爬取动态内容

对于使用JavaScript渲染的网页,常规爬虫可能无法获取完整数据。这时可以使用以下工具:

1. selenium

selenium用于模拟真实浏览器行为,适合抓取动态加载的内容。

安装方法:

pip install selenium

示例代码:

from selenium import webdriveroptions = webdriver.ChromeOptions()
options.add_argument('--headless')
driver = webdriver.Chrome(options=options)
driver.get('https://example.com')
print(driver.page_source)
driver.quit()

2. Playwright

Playwright是一个现代浏览器自动化工具,支持多种语言。

安装方法:

pip install playwright
playwright install

示例代码:

from playwright.sync_api import sync_playwrightwith sync_playwright() as p:browser = p.chromium.launch(headless=True)page = browser.new_page()page.goto('https://example.com')print(page.content())browser.close()

总结

本文详细介绍了Python网络爬虫的开发流程,从基础工具到实战案例,再到应对动态内容的高级方法。通过学习这些内容,你可以掌握开发高效爬虫的技能,并运用到实际项目中。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/65657.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

7 分布式定时任务调度框架

先简单介绍下分布式定时任务调度框架的使用场景和功能和架构&#xff0c;然后再介绍世面上常见的产品 我们在大型的复杂的系统下&#xff0c;会有大量的跑批&#xff0c;定时任务的功能&#xff0c;如果在独立的子项目中单独去处理这些任务&#xff0c;随着业务的复杂度的提高…

网络安全 | 网络安全法规:GDPR、CCPA与中国网络安全法

网络安全 | 网络安全法规&#xff1a;GDPR、CCPA与中国网络安全法 一、前言二、欧盟《通用数据保护条例》&#xff08;GDPR&#xff09;2.1 背景2.2 主要内容2.3 特点2.4 实施效果与影响 三、美国《加利福尼亚州消费者隐私法案》&#xff08;CCPA&#xff09;3.1 背景3.2 主要内…

“AI智能陪练培训服务系统,让学习更轻松、更高效

大家好&#xff0c;我是资深产品经理小李&#xff0c;今天咱们来侃侃一个新兴的教育辅助工具——AI智能陪练培训服务系统。这个系统可谓是教育培训行业的一股新势力&#xff0c;它究竟有什么神奇之处呢&#xff1f;下面我就跟大家伙儿好好聊聊。 一、什么是AI智能陪练培训服务系…

notebook主目录及pip镜像源修改

目录 一、notebook主目录修改二、pip镜像源修改 一、notebook主目录修改 在使用Jupyter Notebook进行数据分析时&#xff0c;生成的.ipynb文件默认会保存在Jupyter的主目录中。通常情况下&#xff0c;系统会将Jupyter的主目录设置为系统的文档目录&#xff0c;而文档目录通常位…

如何利用百炼智能体编排应用轻松搭建智能AI旅游助手?

各位小伙伴儿&#xff0c;好哈&#xff01; 在上一篇文章《5分钟基于阿里云百炼平台搭建专属智能AI机器人》中我们体验了如何利用阿里云百炼平台的智能体应用搭建专属智能机器人。 它的配置过程相对简单&#xff0c;其“对话式”的输出形式也十分直观&#xff0c;非常适合初学…

计算机视觉目标检测-DETR网络

目录 摘要abstractDETR目标检测网络详解二分图匹配和损失函数 DETR总结总结 摘要 DETR&#xff08;DEtection TRansformer&#xff09;是由Facebook AI提出的一种基于Transformer架构的端到端目标检测方法。它通过将目标检测建模为集合预测问题&#xff0c;摒弃了锚框设计和非…

【Vim Masterclass 笔记09】S06L22:Vim 核心操作训练之 —— 文本的搜索、查找与替换操作(第一部分)

文章目录 S06L22 Search, Find, and Replace - Part One1 从光标位置起&#xff0c;正向定位到当前行的首个字符 b2 从光标位置起&#xff0c;反向查找某个字符3 重复上一次字符查找操作4 定位到目标字符的前一个字符5 单字符查找与 Vim 命令的组合6 跨行查找某字符串7 Vim 的增…

springboot 默认的 mysql 驱动版本

本案例以 springboot 3.1.12 版本为例 <parent><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-parent</artifactId><version>3.1.12</version><relativePath/> </parent> 点击 spring-…

计算机网络(二)——物理层和数据链路层

一、物理层 1.作用 实现相信计算机节点之间比特流的透明传输&#xff0c;尽可能屏蔽具体传输介质和物理设备的差异。 2.数据传输单位 比特。 3.相关通信概念 ①信源和信宿&#xff1a;即信号的发送方和接收方。 ②数据&#xff1a;即信息的实体&#xff0c;比如图像、视频等&am…

sql server cdc漏扫数据

SQL Server的CDC指的是“变更数据捕获”&#xff08;Change Data Capture&#xff09;。这是SQL Server数据库提供的一项功能&#xff0c;能够跟踪并记录对数据库表中数据所做的更改。这些更改包括插入、更新和删除操作。CDC可以捕获这些变更的详细信息&#xff0c;并使这些信息…

AI数字人+文旅:打造数字文旅新名片

在数字化浪潮的推动下&#xff0c;人工智能技术正以前所未有的速度渗透到我们生活的每一个角落。特别是在文化和旅游领域&#xff0c;AI数字人的出现&#xff0c;不仅为传统文旅产业注入了新的活力&#xff0c;也为游客带来了全新的体验。 肇庆AI数字人——星湖 “星湖”是肇…

做一个 简单的Django 《股票自选助手》显示 用akshare 库(A股数据获取)

图&#xff1a; 股票自选助手 这是一个基于 Django 开发的 A 股自选股票信息查看系统。系统使用 akshare 库获取实时股票数据&#xff0c;支持添加、删除和更新股票信息。 功能特点 支持添加自选股票实时显示股票价格和涨跌幅一键更新所有股票数据支持删除不需要的股票使用中…

Protobuf编码规则详解

Protobuf编码规则详解 1 Message 结构1.1 tag1.1.1 字段编号(field_num)1.1.2 传输类型(wire_type) 1.2 字段顺序1.3 默认值 2 编码2.1 Varint编码2.1.1 Varint编码过程2.1.2解码过程2.1.3 存储2.1.4 小结2.2 有符号整数(sint32和sint64)编码的问题与zigzag优化 3 编码实践3.1测…

【docker】exec /entrypoint.sh: no such file or directory

dockerfile生成的image 报错内容&#xff1a; exec /entrypoint.sh: no such file or directory查看文件正常在此路径&#xff0c;但是就是报错没找到。 可能是因为sh文件的换行符使用了win的。

计算机的错误计算(二百零七)

摘要 利用两个数学大模型计算 arccot(0.125664e2)的值&#xff0c;结果保留16位有效数字。 实验表明&#xff0c;它们的输出中分别仅含有3位和1位正确数字。 例1. 计算 arccot(0.125664e2)的值&#xff0c;结果保留16位有效数字。 下面是与一个数学解题器的对话。 以上为与…

MCANet: 基于多模态字幕感知的大语言模型训练无关视频异常检测

目录 摘要01 引言02 相关工作2.1 视频异常检测2.2 基于视频的大语言模型&#xff08;VLLMs&#xff09; 03 方法论3.1 问题定义3.2 MCANet3.3 图像字幕分支3.4 音频字幕分支3.5 基于LLM的异常评分3.6 视频-文本分数优化 04 实验4.1 数据集和评估指标4.2 实现细节4.3 定性结果4.…

WMS仓库管理系统,Vue前端开发,Java后端技术源码(源码学习)

一、项目背景和建设目标 随着企业业务的不断扩展&#xff0c;仓库管理成为影响生产效率、成本控制及客户满意度的重要环节。为了提升仓库作业的透明度、准确性和效率&#xff0c;本方案旨在构建一套全面、高效、易用的仓库管理系统&#xff08;WMS&#xff09;。该系统将涵盖库…

【Uniapp-Vue3】创建自定义页面模板

大多数情况下我们都使用的是默认模板&#xff0c;但是默认模板是Vue2格式的&#xff0c;如果我们想要定义一个Vue3模板的页面就需要自定义。 一、我们先复制下面的模板代码&#xff08;可根据自身需要进行修改&#xff09;&#xff1a; <template><view class"…

【Go】:图片上添加水印的全面指南——从基础到高级特性

前言 在数字内容日益重要的今天&#xff0c;保护版权和标识来源变得关键。为图片添加水印有助于声明所有权、提升品牌认知度&#xff0c;并防止未经授权的使用。本文将介绍如何用Go语言实现图片水印&#xff0c;包括静态图片和带旋转、倾斜效果的文字水印&#xff0c;帮助您有…

springCloudGateWay使用总结

1、什么是网关 功能: ①身份认证、权限验证 ②服务器路由、负载均衡 ③请求限流 2、gateway搭建 2.1、创建一个空项目 2.2、引入依赖 2.3、加配置 3、断言工厂 4、过滤工厂 5、全局过滤器 6、跨域问题