Python爬虫入门课: 如何实现数据抓取 <文字 图片 音频 视频 文档..>

嗨喽~大家好呀,这里是魔王呐 ❤ ~!

python更多源码/资料/解答/教程等 点击此处跳转文末名片免费获取

环境使用:

  • Python 3.10 解释器

  • Pycharm 编辑器

模块使用:

  • requests

  • re

  • csv

  • pandas

爬虫实现第一步:

一. 抓包分析

  • 找到对应数据链接地址

  • 套用代码:

    1. 修改链接

    2. 请求方式 (大部分get)

    3. 请求头模拟伪装 (复制)

    4. 根据响应返回的数据, 选择对应数据获取方式

      • 文字: 评论 / 弹幕 / 小说内容 / 房源数据 / 电商平台数据

        保存: txt 表格文件中 (csv / Excel)

二. 代码实现步骤

  1. 发送请求

  2. 获取数据

  3. 解析数据

  4. 保存数据

代码

# 导入数据请求模块
import requests
# 导入正则表达式模块
import re
# 导入csv模块
import csv
# 导入pandas
import pandas as pd

“”“保存csv”“”

csv_file = open('data.csv', mode='a', encoding='utf-8', newline='')
csv_writer  = csv.DictWriter(csv_file, fieldnames=['链接', '书名'])
csv_writer.writeheader()

“”“保存Excel”“”

content_list = [] # 创建空列表

“”“爬虫代码模板”“”

'''
遇到问题没人解答?小编创建了一个Python学习交流QQ群:926207505
寻找有志同道合的小伙伴,互帮互助,群里还有不错的视频学习教程和PDF电子书!
'''
# 请求网址 <可修改>
url = 'https://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-recent7-0-0-1-1'
# 模拟浏览器 <可修改> 只加ua得不到数据,考虑加其他的内容 cookie
headers = {# 'Cookie':'cookie2=1cc1a1d71b55c70f06a967cf6928e38f; t=bd212cd7985fc01620072c32d0c75e63; _tb_token_=f3b1be8e3571e; _m_h5_tk=4864b7435c237379bd0672766256fd82_1700664128902; _m_h5_tk_enc=6d437a80c2f37003b6a959efefe1ee65; cna=UuLkHVk6/GoCAa8N4mgNBHoR; xlly_s=1; _samesite_flag_=true; sgcookie=E100yzzme9pkL0eYBuODsheO6oym4V1a7ylpVuQTOkCGO76sQKdX2qtiPLXKp0Sb8zjJ%2FqStCUkOK1MfrNdepq45tpO3eeak6QWmpUJCskUPy9g%3D; unb=2253332812; uc3=vt3=F8dD3CN7RI1WgzeB9LA%3D&nk2=EFHQgqY%2FYVpGAB3A&lg2=VFC%2FuZ9ayeYq2g%3D%3D&id2=UUpkuyL4JX%2FEYg%3D%3D; csg=6c1f510f; lgc=songlin12355; cancelledSubSites=empty; cookie17=UUpkuyL4JX%2FEYg%3D%3D; dnk=songlin12355; skt=8ae0cfff23ab7492; existShop=MTcwMDY1NjIzMw%3D%3D; uc4=nk4=0%40EohdjXbja%2BcD2pXliwckLCTyc578V0Q%3D&id4=0%40U2guM2WFlHhG0KgHRZNn6toWs%2BQA; tracknick=songlin12355; _cc_=U%2BGCWk%2F7og%3D%3D; _l_g_=Ug%3D%3D; sg=526; _nk_=songlin12355; cookie1=WvZkvpyfdEVhZc7D4YCP4CnB%2BS2ARzymB83V5PHKTvs%3D; isg=BIeH6YlcrkNR5irPvfaakVLtFjtRjFtuCLgwzFl0cZYfyKaKYFniv_nJaoiWIDPm; tfstk=dKODvFa23KWf10jDdmCjgygLZ-DRco11xhFOX1IZUgS7H1HXWNvkRhjx5x1vEGxyqiPxlEKl7hY6Hq6tcP4XZHVTMmMX75fO_DnK9XLbh11tvsAHExgFsrHF4dGplE1_olupUXFMwyTdjYy05QzHMqflxPwY6dvET0sHugVHPQ74GMcC455eaZWD_K6wE8yFOiN1zVdzCR6VPajd_-PZs; l=fBIlxQSlPuu7D7pTBO5CPurza779UIRb8sPzaNbMiIEGa1yPTd8piNCTdGTM7dtjgT50keKyMAhYGdUyrRz38AkDBeYIpIqLALv68eM3N7AN.; mt=ci=68_1; uc1=cookie16=UIHiLt3xCS3yM2h4eKHS9lpEOw%3D%3D&cookie21=V32FPkk%2FgPzW&existShop=false&cookie15=VFC%2FuZ9ayeYq2g%3D%3D&cookie14=UoYelQxCxISYZA%3D%3D&pas=0; thw=cn','User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36'
}
# 发送请求 <请求方式可修改>
response = requests.get(url=url, headers=headers)
"""获取响应数据- response.text 获取响应文本数据 (字符串)获取html网页数据- response.json() 获取响应json数据 (json字典){} 花括号包裹起来数据 <必须是完整json数据格式>- response.content 获取响应二进制数据 (保存图片/视频/音频/特定格式文件...)
"""
html = response.text
"""解析数据- 数据源: 字符串数据- 数据: 需要的数据直接复制粘贴 需要提取内容(.*?)re.findall('数据', '数据源')比如: info = re.findall('"creativeTitle":"(.*?)","hotSale"', html)为了防止被封IP 换IP代理 换账号 设置延时
"""
info = re.findall('<div class="name"><a href="(.*?)" target="_blank" title="(.*?)">', html)
"""保存数据
1. txt: 保存字符串数据# file 可以修改 <文件路径 / 文件名 / 格式> mode='a' 追加保存 w 写入数据(会覆盖)with open(file='demo.txt', mode='a', encoding='utf-8') as f:# 写入内容f.write(link) # 写入链接f.write(title) # 写入标题f.write('\n') # 写一个换行符
2. 表格: csv / excel
"""
# for循环遍历
for link, title in info:# 创建字典dit = {'链接': link,'书名': title}# 写入csvcsv_writer.writerow(dit)# 写入Excel 把字典添加到列表中content_list.append(dit)print(link, title)# 传入列表
df = pd.DataFrame(content_list)
# 保存Excel
df.to_excel('data.xlsx', index=False)

尾语

最后感谢你观看我的文章呐~本次航班到这里就结束啦 🛬

希望本篇文章有对你带来帮助 🎉,有学习到一点知识~

躲起来的星星🍥也在努力发光,你也要努力加油(让我们一起努力叭)。

最后,宣传一下呀~👇👇👇更多源码、资料、素材、解答、交流皆点击下方名片获取呀👇👇

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/175824.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Mybatis 源码搭建

文章目录 源码下载测试模块搭建学习博客 源码下载 首先下载mybatis-parent的源码&#xff1a;gitee地址 > https://gitee.com/callback_lab/mybatis-parent.git 然后下载mybatis的源码&#xff1a;gitee地址 > https://gitee.com/callback_lab/mybatis-src.git 带中文…

无人机遥控器方案定制_MTK平台无人设备手持遥控终端PCB板开发

随着科技的不断发展和无人机技术的逐步成熟&#xff0c;无人机越来越受到人们的关注。作为一种高新技术&#xff0c;无人机的应用范围不断拓展&#xff0c;包括农业、环境监测、城市规划、运输物流等领域。同时&#xff0c;无人机的飞行控制技术也得到了不断的优化和提升。 早…

KVM虚拟机的NAT网络模式原理及过程展示

NAT的方式及原理 NAT方式是KVM安装后的默认方式。 它支持主机与虚拟机的互访&#xff0c;同时也支持虚拟机访问互联网&#xff0c;但不支持外界访问虚拟机。 default是宿主机安装虚拟机支持模块的时候自动安装的。 其中 virbr0是由宿主机虚拟机支持模块安装时产生的虚拟网络接…

RWA+AI 叙事下的 ProsperEx,对 Web3 时代交易的重新定义

RWA&#xff08;Real World Assets&#xff09;即现实资产代币&#xff0c;其本质在于将现实世界中具有货币价值的东西转化为数字代币&#xff0c;使其可以在区块链上表现价值并进行交易。RWA 资产既可以包括有形资产&#xff0c;例如房产、珠宝、黄金等&#xff0c;也可以包无…

mysql多表重复数据只保留一行的思路

一、问题描述 假设有3个表&#xff0c;test_a&#xff0c;test_b&#xff0c;test_c&#xff1b; test_a和test_b中有些重复数据&#xff1b; 现在要把这2个表的数据同步到表c&#xff0c;但是重复数据只保留1行。 样例如下&#xff1a; 具体要求如下&#xff1a; 1.tes…

Java 简易版王者荣耀

所有包和类 GameFrame类 package newKingOfHonor;import java.awt.*; import java.awt.event.ActionEvent; import java.awt.event.ActionListener; import java.awt.event.KeyAdapter; import java.awt.event.KeyEvent; import java.io.File; import java.util.ArrayList;im…

视频没有字幕怎么办,怎么给视频增加字幕

文章目录 视频没有字幕怎么办&#xff0c;怎么给视频增加字幕前言软件准备制作字幕1. 导入视频2. 将视频拖拽到轨道3. 生成字幕4. 导出字幕 字幕实时翻译1. 播放视频2. 显示字幕设置3. 双语字幕显示 总结 视频没有字幕怎么办&#xff0c;怎么给视频增加字幕 前言 有时候下载的…

血的教训------入侵redis之利用python来破解redis密码

血的教训------入侵redis之利用python来破解redis密码 利用强大的python来进行redis的密码破解&#xff0c;过程不亦乐乎&#xff0c;当然也可以用shell脚本 本篇文章只供学习交流&#xff0c;请勿他用&#xff0c;谢谢。 其他相关联的文章 [1]VMware安装部署kail镜像服务器【…

C#-创建用于测试的父类StartupBase用于服务注入

当写完C#代码&#xff0c;需要对某个方法进行测试。 创建一个XXXTests.cs文件之后&#xff0c;发现需要注入某个服务怎么办&#xff1f; 再创建一个StartupBase.cs文件&#xff1a; public abstract class StartupBase {public IConfiguration Configuration { get; }public …

西南科技大学电路分析基础实验A1(一阶电路的设计)

目录 一、实验目的 二、实验设备 三、预习内容(如:基本原理、电路图、计算值等) 四、实验数据及结果分析(预习写必要实验步骤和表格) 1. 观测一阶电

【香橙派】实战记录2——烧录安卓镜像及基本功能

文章目录 一、安卓烧录二、安卓基本功能1、蓝牙2、相机功能3、投屏 一、安卓烧录 检查环境&#xff1a;检查PC系统&#xff0c;确保有Microsoft Visual C 2008 Redistrbutable - x86&#xff0c;否则在官网下载的官方工具 - 安卓镜像烧录工具里运行vcredist_x86.exe。 插入存储…

鞋厂ERP怎么样?工厂要如何选项契合的ERP

鞋帽这类商品是我们的生活必需品&#xff0c;存在款式多、尺码多、用料复杂、营销渠道多、销售策略和价格策略灵活等情况&#xff0c;伴随电商等行业的发展&#xff0c;鞋帽行业的管理模式也在发生变化。 鞋厂规模的不同&#xff0c;遇到的管理问题各异&#xff0c;而如何解决…

十分钟搭建VScode C/C++运行环境

一、下载配置vscode 1.下载安装VScode 地址&#xff1a;https://code.visualstudio.com/download 下载后&#xff0c;运行安装程序 (VSCodeUserSetup-{version}.exe)。这只需要一分钟。安装程序会将 Visual Studio Code 添加到环境变量中%&#xff0c;可以使用CMD键入“code”…

2023-2024-1-高级语言程序设计-字符数组

7-1 凯撒密码 为了防止信息被别人轻易窃取&#xff0c;需要把电码明文通过加密方式变换成为密文。输入一个以回车符为结束标志的字符串&#xff08;少于80个字符&#xff09;&#xff0c;再输入一个整数offset&#xff0c;用凯撒密码将其加密后输出。恺撒密码是一种简单的替换…

性价比高的照明品牌,考研考公必备护眼台灯推荐

据国家卫生健康委员会发布的调查数据显示,我国青少年儿童总体近视率为52.7%、高度近视人口超3000万。儿童是民族的未来和希望,青少年儿童眼健康问题更是牵动着每一个人的神经。遗传、双眼视功能不正常、用眼负荷过重等因素都是造成青少年近视的原因,其中,大量的电子产品侵入以及…

Flask Session 登录认证模块

Flask 框架提供了强大的 Session 模块组件&#xff0c;为 Web 应用实现用户注册与登录系统提供了方便的机制。结合 Flask-WTF 表单组件&#xff0c;我们能够轻松地设计出用户友好且具备美观界面的注册和登录页面&#xff0c;使这一功能能够直接应用到我们的项目中。本文将深入探…

动态网页从数据库取信息,然后展示。

把数据库的驱动放在bin目录下。 通过servlet 读取数据库的内容&#xff0c;生成session,然后跨页面传给展示页。 package src;import java.io.IOException; import java.io.PrintWriter; import java.sql.Connection; import java.sql.DriverManager; import java.sql.ResultSe…

ROC及曲线面积汇总学习

目录 ROC基础 生成模拟数据 率的计算 R语言计算测试 ROCR&#xff1a; pROC ROC绘制 单个ROC 两个ROC Logistic回归的ROC曲线 timeROC ROC基础 ROC曲线的横坐标是假阳性率&#xff0c;纵坐标是真阳性率&#xff0c;需要的结果是这个率表示疾病阳性的率&#xff08;…

QT基础开发笔记

用VS 写QT &#xff0c;设置exe图标的方法&#xff1a; 选定工程--》右键--》添加---》资源--》 QString 字符串用法总结说明 Qt QString 增、删、改、查、格式化等常用方法总结_qstring 格式化-CSDN博客 总结来说&#xff1a; QString 的 remove有两种用法&#xff0c;&am…

【JavaSE】:接口(一)

接口 一.什么是接口二.语法规则三.接口的使用四.实现多个接口五.接口的继承 final关键字 inal修饰的变量&#xff0c;这个变量是不可修改的。final修饰后的方法&#xff0c;禁止子类继承的时候重写方法。final修饰后的类&#xff0c;是禁止被继承的。 super关键字 如果父类(超类…