使用python爬取豆瓣网站?如何简单的爬取豆瓣网站?

1.对python爬虫的看法

首先说说我对python的看法,我的专业是大数据,我从事的工作是java开发,但是在工作之余,我对python又很感兴趣,因为我觉得python是一门很好的语言,第一:它可以用来爬取数据,也就是我今天要介绍的;第二:它可以用来做项目的后端搭建;第三:可以用来做数据分析,第四:它的语法比较简单,代码写起来也没有java语法那么严格。我觉得python做第二门兼职语言再好不过了。

2.爬取数据过程中的感想

有时候,我们爬取的数据是比较杂乱的,需要我们对数据进行清洗处理,去掉错误或者空值,如果我们用数据来进行研究,这是必经的过程。所以我们不仅要学会爬取数据,还要学会对爬取的数据进行处理,所以我觉得想要学习python这门语言,先学爬虫,在爬虫的基础上一边学数据处理。

3.本次爬取数据的所得
3.1第一次数据爬取

爬取数据三要素:获取网站信息,获取需要爬取数据的节点,将数据进行保存

3.2爬取数据的处理

由于第一次的数据爬取出来,格式上比较混乱,且如果要使用到数据的话,就得把有用的数据提取出来,因此进行数据处理并且重新进行保存是必要的,这里使用到了正则表达式(正则在数据处理和数据爬取中都是一个重要的存在)

总结
此代码只能用于爬取简单的数据,如果要爬取动态的数据或者是更多数据需要使用到多方面的东西=========================================================================

下面是一个固定的写法:用于确保某段代码只有在脚本作为主程序运行时才会执行,通常用于定义脚本的入口点。也就是说如果这个py文件被其他给引入了,他是不会执行这个里面的内容的

当 my_script.py 被直接运行时,__name__ 变量的值为 '__main__',因此 main() 函数会被调用。
当 my_script.py 被其他文件导入时,__name__ 变量的值为 'my_script',因此 main() 函数不会被调用。

if __name__ == '__main__':handle()

他提高了代码的复用性和可维护性,如果在该块中编写单元测试代码,这些测试代码只会在直接运行脚本时执行。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/53723.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何使用 Rust 框架进行 RESTful API 的开发?

一、RESTful API 的开发 使用 Rust 框架进行 RESTful API 开发,你可以选择多种流行的 Rust Web 框架,如 Actix-web、Rocket、Warp 和 Tide 等。以下是使用这些框架进行 RESTful API 开发的基本步骤和概念: 选择框架:根据项…

DRF笔记

一、CBV与FBV FBV(Function-Based Views) # views.py from django.shortcuts import HttpResponse from django.views.decorators.csrf import csrf_exemptcsrf_exempt def book_views(request):if request.method "GET":return HttpRespo…

区块链—共享块存储安全可信任可追踪分布式数据库系统技术

审核不过?这里面没有广告 为什么被识别为广告? 什么是区块链? 区块链是一种不可篡改的共享分类账,有助于推动业务网络中记录交易和跟踪资产的过程。 资产可以是有形的(房屋、汽车、现金、土地)&#xff…

探索 Snowflake 与 Databend 的云原生数仓技术与应用实践 | Data Infra NO.21 回顾

上周六,第二十一期「Data Infra 研究社」在线上与大家相见。活动邀请到了西门子数据分析师陈砚林与 Databend 联合创始人王吟,为我们带来了一场关于 Snowflake 和 Databend 的技术探索。Snowflake,这个市值曾超过 700 亿美元的云原生数据仓库…

李宏毅机器学习2023-HW10-Adversarial Attack

文章目录 TaskBaselineFGSM (Fast Gradient Sign Method (FGSM)I-FGSM(Iterative Fast Gradient Sign Method)MI-FGSM(Momentum Iterative Fast Gradient Sign Method)M-DI2-FGSM(Diverse Input Momentum Iterative Fast Gradient Sign Method) Reportfgsm attackJepg Compress…

性能优化与资源管理:优化Selenium脚本的执行效率,合理管理浏览器实例和系统资源

目录 引言 一、Selenium基础与常用方法 1.1 Selenium简介 1.2 Selenium基础用法 二、Selenium性能优化技巧 2.1 使用WebDriverWait实现显式等待 2.2 启用无头模式 2.3 设置合理的页面加载策略 2.4 禁用图片和JavaScript加载 2.5 优化元素定位 2.6 合理使用隐式等待和…

国产化框架PaddleYOLO结合Swanlab进行作物检测

1. 项目介绍 粮食安全,作为人类生存与发展的基石,始终是全球关注的焦点。它不仅仅关乎粮食的充足供应,更涉及粮食的质量安全、营养健康以及可持续生产等多个维度。在全球化、气候变化和资源环境约束日益加剧的背景下,如何确保粮食…

Node-GDAL:简洁强大的Node.js地理空间数据处理库

一、简介 node-gdal是Node.js环境下的一个强大库,它是GDAL(Geospatial Data Abstraction Library)的原生绑定库。GDAL是一个开源的地理空间数据处理库,用于读写多种栅格和矢量地理空间数据集。node-gdal允许开发者在Node.js环境中…

@interface注解详解

Java 中用于定义注解的关键字。虽然它看起来像接口的定义,但它实际上是一个特殊的类型,用于创建自定义注解。 注解的特点 自定义元数据: 注解允许你为代码中的元素(类、方法、字段等)添加元数据,这些元数据可以在运行…

从0开始linux(5)——vim

欢迎来到博主的专栏:从0开始linux 博主ID:代码小豪 文章目录 vim的多种模式底行模式命令命令模式视块模式(visual block) vim的配置 vim是linux系统的文本编辑器。就像windows的记事本一样。 使用vim指令可以使用vim打开一个文本文…

JavaWeb美食推荐管理系统

目录 1 项目介绍2 项目截图3 核心代码3.1 Controller3.2 Service3.3 Dao3.4 spring-mybatis.xml3.5 spring-mvc.xml3.5 login.jsp 4 数据库表设计5 文档参考6 计算机毕设选题推荐7 源码获取 1 项目介绍 博主个人介绍:CSDN认证博客专家,CSDN平台Java领域优…

MySQL数据库(基础)

学习SQL语句的必要性 在可视化工具中(如Navicat)许多基本的数据库操作可以通过图形用户界面(GUI)完成,而无需手动编写SQL语句。例如,你可以通过点击按钮来创建表、插入数据、查询记录等。这种方式对于不熟…

JavaScript 学习

一、输出 为方便调试可以输出内容&#xff0c;但是用户是看不到的。要在开发者模式中看。 console . log ( "Hello" )&#xff1b; 二、外部文件引用 可以直接在html中写JS <head> <meta charset"utf-8"> <script> console.log("he…

【刷题日记】最大不重叠区间的数量 leetcode 435

题目描述 给定一个区间的集合 intervals &#xff0c;其中 intervals[i] [starti, endi] 。返回 需要移除区间的最小数量&#xff0c;使剩余区间互不重叠 。 求解思路 本题应该使用贪心算法&#xff0c;也就是当出现区间重叠的情况下&#xff0c;使用贪心的思路&#xff0c…

【python qdrant 向量数据库 完整示例代码】

测试一下python版本的dqrant向量数据库的效果&#xff0c;完整代码如下&#xff1a; 安装库 !pip install qdrant-client>1.1.1 !pip install -U sentence-transformers导入 from qdrant_client import models, QdrantClient from sentence_transformers import SentenceT…

ZYNQ:开发环境搭建

资料下载 http://47.111.11.73/docs/boards/fpga/zdyz_qimxing(V2).html Vivado软件是什么&#xff1f; Vivado软件是Xilinx&#xff08;赛灵思&#xff09;公司推出的一款集成设计环境&#xff08;IDE&#xff09;&#xff0c;主要用于FPGA&#xff08;现场可编程门阵列&am…

零代码构建自己强大的Agent智能体,偷偷甩掉90%的人

转自公众号&#xff1a;渡码 Agent&#xff08;智能体&#xff09;的概念大家应该并不陌生了&#xff0c;今天分享通过可视化的方式构建各种各样强大的智能体。 关于Agent的定义&#xff0c;我并不想引用官方正式的说法。而是按照我的理解通俗地解释一下。 大模型好比是面粉…

第166天:应急响应-拒绝服务钓鱼指南DDOS压力测试邮件反制分析应用日志

案例一&#xff1a;内网应急-日志分析-爆破&横向&数据库 数据库 这里不同数据库日志不一样&#xff0c;我用mysql分析 首先MySQL数据库需要支持远程连接 GRANT ALL PRIVILEGES ON . TO root% IDENTIFIED BY 123.com WITH GRANT OPTION; 其次开启日志 -- 查看general…

自动化生成与更新 Changelog 文件

在软件开发中&#xff0c;保持 Changelog 文件的更新是一项至关重要的任务。 Changelog 文件记录了项目的每一个重要变更&#xff0c;包括新功能、修复的问题以及任何可能破坏现有功能的变更。对于维护者、贡献者和最终用户来说&#xff0c;这都是一个宝贵的资源。然而&#x…

Flutter为Android添加签名并打包

前言 我们需要将App进行数字签名才能发布到商店里。在这里就具体描述一下如果给App添加签名 为App签名 创建一个用户上传的秘钥库 如果你已经有一个秘钥库了&#xff0c;可以直接跳到下一步&#xff0c;如果没有则按照下面的指令创建一个 keytool 可能不在我们的系统路径中…