湖南seo网站策划/成品网站源码在线看

湖南seo网站策划,成品网站源码在线看,做网站都需要什么资料,网站建设总结和体会阅读提示:我今天才开始尝试爬虫,写的不好请见谅。 一、准备工具 requests库:发送HTTP请求并获取网页内容。BeautifulSoup库:解析HTML页面并提取数据。pandas库:保存抓取到的数据到CSV文件中。 二、爬取步骤 发送请求…

阅读提示:我今天才开始尝试爬虫,写的不好请见谅。

一、准备工具

  • requests库:发送HTTP请求并获取网页内容。
  • BeautifulSoup库:解析HTML页面并提取数据。
  • pandas库:保存抓取到的数据到CSV文件中。

二、爬取步骤

  • 发送请求: 对于目标网页,使用requests.get()发送HTTP请求并获取网页的HTML内容。
  • 解析HTML: 使用BeautifulSoup解析网页,并寻找包含信息的HTML元素。
  • 提取数据: 找到合适的HTML标签和类名,提取信息。
  • 分页爬取: 如果网站有分页,可以在代码中处理分页逻辑,循环抓取每一页的数据。
  • 保存数据: 使用pandas或内置的文件写入功能,将抓取到的数据保存到CSV文件中。

三、爬虫代码

网页

<div class="pic"><em>1</em><a href="https://movie.douban.com/subject/1292052/"><img width="100" alt="肖申克的救赎" src="https://img3.doubanio.com/view/photo/s_ratio_poster/public/p480747492.webp"></a></div>
<div class="bd">                        
<p>                            
导演: 弗兰克·德拉邦特 Frank Darabont&nbsp;&nbsp;&nbsp;主演: 蒂姆·罗宾斯 Tim Robbins /...<br>                            
1994&nbsp;/&nbsp;美国&nbsp;/&nbsp;犯罪 剧情                        
</p><div>                            
<span class="rating5-t"></span>                            
<span class="rating_num" property="v:average">9.7</span>                            
<span property="v:best" content="10.0"></span>                            
<span>3148544人评价</span>                        
</div><p class="quote">                                
<span>希望让人自由。</span>                            
</p>                    
</div>

 爬虫代码:(我这里只爬虫了一部分)


from bs4 import BeautifulSoup
import requests
import pandas as pddef getFilm():try:# 添加请求头headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'}# 获取网页内容res = requests.get("https://movie.douban.com/top250?start=0&filter=",  headers=headers, timeout=10)res.encoding = 'utf-8'  # 修正编码设置# 解析网页soup = BeautifulSoup(res.text, 'html.parser')# 获取数据film_data=soup.find('div',class_='hd')if not film_data:print("未找到信息")print(res.status_code)  # 应该是200return Nonename=soup.find('span',class_='title').text.strip()score=soup.find('span',class_='rating_num').text.strip()word=soup.find('p',class_='quote')dictum=word.find('span').get_text()df=pd.DataFrame({'电影名':[name],'评分':[score],'寄语':dictum})return dfexcept Exception as e:print(f"发生错误: {e}")return Nonedef main():df= getFilm()  # 修正变量名if df is not None:print(df)  # 打印DataFrameelse:print("未能获取数据")if __name__ == '__main__':main()

四、拓展(设置请求头)

请求头(HTTP Headers)是客户端(如浏览器或爬虫)在发送 HTTP 请求时,附带的一组 键值对(Key-Value)信息,用于告诉服务器 你是谁、你想获取什么、以及如何返回数据

请求头字段示例值作用
User-AgentMozilla/5.0 (Windows NT 10.0; Win64; x64)告诉服务器你的浏览器或设备类型
Accepttext/html,application/xhtml+xml告诉服务器你希望接收的数据类型
Accept-Languagezh-CN,zh;q=0.9告诉服务器你希望返回的语言
Refererhttps://www.google.com/告诉服务器你从哪个页面跳转过来
Hostmovie.douban.com告诉服务器你要访问的域名
Cookiesessionid=abc123用于身份验证(如登录状态)
Connectionkeep-alive控制 TCP 连接是否保持
Accept-Encodinggzip, deflate告诉服务器你支持的压缩方式


 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/73467.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

重学Java基础篇—线程池参数优化指南

一、核心参数解析 线程池&#xff08;ThreadPoolExecutor&#xff09;的性能取决于以下关键参数&#xff1a; 参数说明corePoolSize核心线程数&#xff0c;即使空闲也不会被回收maximumPoolSize最大线程数&#xff0c;当队列满且核心线程忙时创建新线程workQueue任务队列&…

记一次线上环境JAR冲突导致程序报错org.springframework.web.util.NestedServletException

一、问题描述 有个文件导入功能&#xff0c;用到了Hutool 的加密解密功能&#xff0c;本地运行完全可以&#xff0c;但是线上报错&#xff1a;“org.springframework.web.util.NestedServletException: Handler dispatch failed; nested exception is java.lang.NoClassDefFou…

2.基于多线程的TCP服务器实现

目录 1. 简单分析之前的代码 2. 多线程服务器设计 2.1 C11线程的基本使用 2.2 服务器主体逻辑 3. 错误处理的封装 4. 完整的代码实现 客户端代码&#xff08;client.cpp&#xff09; 服务器代码&#xff08;server.cpp&#xff09; 5. 运行方式 在我们预想中&#xff…

从零构建大语言模型全栈开发指南:第二部分:模型架构设计与实现-2.2.3实战案例:在笔记本电脑上运行轻量级LLM

👉 点击关注不迷路 👉 点击关注不迷路 👉 点击关注不迷路 文章大纲 实战案例:在笔记本电脑上运行轻量级LLM2.2.3 模型架构设计与实现1. 环境与工具准备1.1 硬件要求1.2 软件栈选择2. 轻量级模型架构设计2.1 模型参数配置2.2 关键技术优化3. 实战流程3.1 数据准备流程3.2…

工业软件的破局与重构:从技术依赖到自主创新的未来路径

工业软件作为现代工业的“神经与大脑”&#xff0c;不仅是制造业数字化转型的核心工具&#xff0c;更是国家工业竞争力的战略制高点。近年来&#xff0c;中国工业软件市场在政策驱动与技术迭代中迅猛发展&#xff0c;但核心技术受制于人的困境仍待突破。如何实现从“跟跑”到“…

歌曲缓存相关功能

1. 核心组件 MusicCacheManager (音乐缓存管理器) 单例模式&#xff1a;确保全局只有一个实例&#xff0c;方便管理。 private static var instance: MusicCacheManager?static func shared() -> MusicCacheManager {if instance nil {instance MusicCacheManager()}ret…

阿里开源的免费数据集成工具——DataX

企业里真实的数据流转是什么样子的呢&#xff1f; 左侧描述了一个企业真实的样子&#xff0c;我们总是需要把数据从一个地方搬到另一个地方&#xff0c;最后就是搬来搬去搬成了一张张解不开的网。 右侧则表达了使用DataX为中心实现数据的同步。 什么是DataX DataX是一个异构…

26考研——图_图的遍历(6)

408答疑 文章目录 三、图的遍历图的遍历概述图的遍历算法的重要性图的遍历与树的遍历的区别图的遍历过程中的注意事项避免重复访问遍历算法的分类遍历结果的不唯一性 广度优先搜索广度优先搜索&#xff08;BFS&#xff09;概述BFS 的特点广度优先遍历的过程示例图遍历过程 BFS …

前端解决方案:实现网页截图并导出PDF功能

前端解决方案&#xff1a;实现网页截图并导出PDF功能 在前端开发中&#xff0c;我们经常会遇到需要将网页内容导出为PDF的需求。本文将以一个准考证预览和导出的例子&#xff0c;带你一步步实现这个功能。我们会处理包括跨域图片、Canvas绘图、PDF生成等多个技术要点。 一、基…

【MySQL】表操作

表操作 一、创建表 1、语句2、语句介绍3、注意事项4、介绍5、示例 二、查看表结构 1、语句2、介绍3、返回的信息4、示例 三、添加字段 1、语句2、语句介绍3、示例 四、修改 1、语句2、语句介绍3、示例 五、删除 1、语句2、示例 六、修改表名 1、语句2、语句介绍3、示例 七、删…

响应“一机两用”政策 ,实现政务外网安全

在数字化办公的浪潮下&#xff0c;企业与政务机构面临着既要保障数据安全&#xff0c;又要高效访问互联网的双重需求。“一机两用”成为解决这一难题的关键。 政策驱动&#xff0c;需求迫切 随着《网络安全法》《数据安全法》等法律法规的相继出台&#xff0c;网络安全防护的要…

文生图语义识别插件使用(controlnet)

1. 插件下载(github) https://github.com/Mikubill/sd-webui-controlnet https://github.com/lllyasviel/ControlNet2. 模型下载(hugging face) https://github.com/Mikubill/sd-webui-controlnet/wiki/Model-download https://huggingface.co/bdsqlsz/qinglong_controlnet-l…

学者观察 | web3.0产业发展与技术融合——北京大学研究员肖臻

导语 肖臻老师认为在未来很长一段时间内&#xff0c;Web 3.0将和现在的Web 2.0共存。Web 3.0和人工智能&#xff08;AI&#xff09;的融合发展前景非常广阔&#xff0c;Web 3.0致力于打造去中心化的互联网生态系统&#xff0c;赋予用户更大的数据所有权和控制权&#xff0c;而…

【模型压缩+推理加速】知识蒸馏综述解读

知识蒸馏综述解读 论文&#xff1a; https://arxiv.org/abs/2006.05525 最近Deepseek R1的技术报告中&#xff0c;训练部分提到使用了知识蒸馏&#xff0c;就像系统性的看看蒸馏算法的原理。看了很多的博客&#xff0c;很多都没有详细把知识蒸馏系统的讲清楚。我们还是读一下…

vivo 湖仓架构的性能提升之旅

作者&#xff1a;郭小龙 vivo互联网 大数据高级研发工程师 导读&#xff1a;本文整理自 vivo互联网 大数据高级研发工程师 郭小龙 在 StarRocks 年度峰会上的分享&#xff0c;聚焦 vivo 大数据多维分析面临的挑战、StarRocks 落地方案及应用收益。 在 即席分析 场景&#xff0c…

2025年如何避免使用验证码求解器时被IP封禁

引言 2025年&#xff0c;验证码求解器已成为自动化网络抓取和其他在线流程的关键工具。然而&#xff0c;自动化用户面临的一个常见挑战是IP封禁。当网站检测到自动化活动时&#xff0c;通常会阻止发出请求的IP地址&#xff0c;导致验证码挑战无法解决。本文将探讨使用验证码求…

JVM详解(包括JVM内存模型与GC垃圾回收)

&#x1f4d6;前言&#xff1a; 学会使用Java对于一个程序员是远远不够的。Java语法的掌握只是一部分&#xff0c;另一部分就是需要掌握Java内部的工作原理&#xff0c;从编译到运行&#xff0c;到底是谁在帮我们完成工作的&#xff1f; 接下来着重对Java虚拟机&#xff0c;也就…

【无标题】大亚湾文化体育场多美啊。

请推荐一些常用并且免费的&#xff0c;可直接在线运行【Python】代码的平台并列出对应网址 好的&#xff0c;用户想让我推荐一些常用且免费的、可以直接在线运行Python代码的平台&#xff0c;并且需要列出对应的网址。我需要先回想一下自己知道的在线Python运行环境&#xff0…

权限提升—Windows权限提升土豆家族溢出漏洞通杀全系

前言 OK&#xff0c;Java安全更新不下去了&#xff0c;实在是太难啦啊&#xff0c;想起来提权这一块没怎么更新过&#xff0c;接下来都主要是更新提权这一块的文章了&#xff0c;Java安全的话以后有耐心再搞了。 手动提权 今天主要是讲这个手动的提权&#xff0c;手动提权相…

python --face_recognition(人脸识别,检测,特征提取,绘制鼻子,眼睛,嘴巴,眉毛)/活体检测

dlib 安装方法 之前博文 https://blog.csdn.net/weixin_44634704/article/details/141332644 环境: python3.8 opencv-python4.11.0.86 face_recognition1.3.0 dlib19.24.6人脸检测 import cv2 import face_recognition# 读取人脸图片 img cv2.imread(r"C:\Users\123\…