Python爬虫(十五)_案例：使用bs4的爬虫

news/2025/4/7 23:42:02/文章来源:https://blog.csdn.net/javasdn/article/details/132473208

本章将从Python案例讲起：所使用bs4做一个简单的爬虫案例，更多内容请参考:Python学习指南

案例：使用BeautifulSoup的爬虫

我们已腾讯社招页面来做演示：http://hr.tencent.com/position.php?&start=10#a

腾讯校招

使用BeautifulSoup4解析器，将招聘网页上的职位名称、职位类别、招聘人数、工作地点、时间、以及每个职位详情的点击链接存储出来。

#-*- coding:utf-8 -*-from bs4 import BeautifulSoupimport urllib2
import urllib
import json   #使用json格式存储def tencent():url = "http://hr.tencent.com/"request = urllib2.Request(url+"position.php?&start=10#a")response = urllib2.urlopen(request)resHtml = response.read()output = open('tencent.json', 'w')html = BeautifulSoup(resHtml, 'lxml')#创建CSS选择器result = html.select('tr[class="even"]')result2 = html.select('tr[class="odd"]')result += result2print(result)items = []for site in result:item = {}name = site.select('td a')[0].get_text()dataLink = site.select('td a')[0].attrs['href']catalog = site.select('td')[1].get_text()recruitNumber = site.select('td')[2].get_text()workLocation = site.select('td')[3].get_text()publishTime = site.select('td')[4].get_text()item['name'] = nameitem['datailLink'] = url + dataLinkitem['catalog'] = catalogitem['recruitNumber'] = recruitNumberitem['publishTime'] = publishTimeitems.append(item)#禁用ascii编码，按utf-8编码line = json.dumps(items, ensure_ascii = False)output.write(line.encode('utf-8'))output.close()if __name__ == '__main__':tencent()

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/51455.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

Elasticsearch中的数据完全备份至另外的Elasticsearch

Elasticsearch中的数据完全备份至另外的Elasticsearch

有两种方式实现： 1、快照和还原 2、导出和导入一、快照和还原 1、在源Elasticsearch集群上创建快照存储库 PUT _snapshot/my_backup {"type": "fs","settings": {"location": "/path/to/backup/directory"}…

阅读更多...

【前端】vue3 接入antdv表单校验

【前端】vue3 接入antdv表单校验

1/🍕背景 1、表单校验是非常常见的需求，能够有效的拦截大部分的错误数据，提升效率。 2、快速的给使用者提示和反馈，用户体验感非常好。 3、成熟的表单校验框架，开发效率高，bug少。最近使用的是vue3antdv的…

阅读更多...

[MyBatis系列④]核心配置文件

[MyBatis系列④]核心配置文件

目录 1、简介 2、DTD 3、typeHandlers 3.1、默认类型处理器 3.2、自定义类型处理器 4、plugins ⭐MyBatis系列①：增删改查 ⭐MyBatis系列②：两种Dao开发方式 ⭐MyBatis系列③：动态SQL 1、简介 MyBatis的核心配置文件（通常命…

阅读更多...

基于IDEA使用maven创建hibernate项目

基于IDEA使用maven创建hibernate项目

1、创建maven项目 2、导入hibernate需要的jar包 <dependency><groupId>org.hibernate</groupId><artifactId>hibernate-core</artifactId><version>5.4.1.Final</version></dependency><!--…

阅读更多...

基于亚马逊云科技服务，构建大语言模型问答知识库

基于亚马逊云科技服务，构建大语言模型问答知识库

随着大语言模型效果明显提升，其相关的应用不断涌现呈现出越来越火爆的趋势。其中一种比较被广泛关注的技术路线是大语言模型（LLM）知识召回（Knowledge Retrieval）的方式，在私域知识问答方面可以很好的弥补通…

阅读更多...

【Git】git clone --depth 1 浅克隆

【Git】git clone --depth 1 浅克隆

问题 PycharmProjects git clone git Cloning into risk-package... remote: Counting objects: 576, done. error: pack-objects died of signal 947/574) error: git upload-pack: git-pack-objects died with error. fatal: git upload-pack: aborting due to possible r…

阅读更多...

ARM64函数调用流程分析

ARM64函数调用流程分析

ARM64函数调用流程分析 1 ARM64 函数调用实例2 对应代码的分析2.1 main函数及其对应的汇编程序2.1.1 main的C代码实现2.1.2 main函数对应汇编及其分析2.1.3 执行完成之后栈的存放情况 2.2 test_fun_a函数及其对应的汇编程序2.2.1 test_fun_a函数的C实现2.2.2 test_fun_a函数对应…

阅读更多...

Oracle的学习心得和知识总结（二十八）|Oracle数据库数据库回放功能之论文二翻译及学习

Oracle的学习心得和知识总结（二十八）|Oracle数据库数据库回放功能之论文二翻译及学习

目录结构注：提前言明本文借鉴了以下博主、书籍或网站的内容，其列表如下： 1、参考书籍：《Oracle Database SQL Language Reference》 2、参考书籍：《PostgreSQL中文手册》 3、EDB Postgres Advanced Server User Gui…

阅读更多...

MAC电脑外放没有声音解决方案

MAC电脑外放没有声音解决方案

烦人呐，我的mac外接显示屏幕，显示器没有音频输出，需要mac笔记本的音频输出，但是经常打开后，mac没有声音输出，需要重启电脑才能生效。亲测一下方法有效，请参考： 文章目录一、短期方案…

阅读更多...

基于mha+mycat2+gtid的半同步主从复制双vip高可用MySQL集群

基于mha+mycat2+gtid的半同步主从复制双vip高可用MySQL集群

目录项目名称项目架构图项目概述项目准备项目步骤一、使用ansible编写palybook实现4台二进制安装MySQL环境的部署，并把master上的基础数据下发到所有slave服务器上 1. 建立免密通道 2.安装ansible在ansible服务器上，并写好主机清单 3.将…

阅读更多...

汽车电子笔记之：AUTOSA架构下的OS概述

汽车电子笔记之：AUTOSA架构下的OS概述

目录 1、实时操作系统（RTOS） 2、OSEK操作系统 2.1、OSEK概述 2.2、OSEK处理等级 2.3、OSEK任务符合类 2.4、OSEK优先级天花板模式 3、AUTOSAR OS 3.1、 AUTOSAR OS对OSEK OS的继承和扩展 3.2、AUTOSAR OS的调度表 3.3、AUTOSAR OS的时间保护 3…

阅读更多...

冷冻冷藏自动化立体库｜HEGERLS四向穿梭车助力打造冷链智能仓储新力量

冷冻冷藏自动化立体库｜HEGERLS四向穿梭车助力打造冷链智能仓储新力量

随着中国仓储物流整体规模和低温产品消费需求的稳步增长，冷链市场应用潜力不断释放。而在实际运行中，由于冷库容量不足、基础设施落后、管理机制欠缺等原因，经常出现“断链”现象，严重威胁到产品质量和消费者安全。河北沃克金属…

阅读更多...

尚硅谷大数据项目《在线教育之离线数仓》笔记004

尚硅谷大数据项目《在线教育之离线数仓》笔记004

视频地址：尚硅谷大数据项目《在线教育之离线数仓》_哔哩哔哩_bilibili 目录第9章数仓开发之DWD层 P049 P050 P051 P052 P053 P054 P055 P056 P057 P058 P059 P060 P061 P062 P063 P064 P065 P066 P067 P068 P069 P070 第9章数仓开发之DWD…

阅读更多...

Wlan——锐捷零漫游网络解决方案以及相关配置

Wlan——锐捷零漫游网络解决方案以及相关配置

目录零漫游介绍一代零漫游二代单频率零漫游二代双频率零漫游锐捷零漫游方案总结锐捷零漫游方案的配置配置无线信号的信道开启关闭5G零漫游查看配置零漫游介绍普通的漫游和零漫游的区别普通漫游漫游是由一个AP到另一个AP或者一个射频卡到另一个射频卡的漫…

阅读更多...

软考高级系统架构设计师系列论文九十八：论软件开发平台的选择与应用

软考高级系统架构设计师系列论文九十八：论软件开发平台的选择与应用

软考高级系统架构设计师系列论文九十八：论软件开发平台的选择与应用一、相关知识点二、摘要三、正文四、总结一、相关知识点软考高级系统架构设计师系列之：面向构件的软件设计，构件平台与典型架构二、摘要本文讨论选择新软件开发平台用于重新开发银行中间业务系统。银行中…

阅读更多...

深入理解 Vue Router：构建可靠的前端路由系统

深入理解 Vue Router：构建可靠的前端路由系统

目录 01-什么是前端路由以及路由两种模式实现原理02-路由的基本搭建与嵌套路由模式03-动态路由模式与编程式路由模式04-命名路由与命名视图与路由元信息05-路由传递参数的多种方式及应用场景06-详解route对象与router对象07-路由守卫详解及应用场景 01-什么是前端路由以及路由两…

阅读更多...

机器学习之SGD（Stochastic Gradient Descent，随机梯度下降）

机器学习之SGD（Stochastic Gradient Descent，随机梯度下降）

SGD（Stochastic Gradient Descent，随机梯度下降）是深度学习中最基本的优化算法之一。它是一种迭代式的优化方法，用于训练神经网络和其他机器学习模型。以下是关于SGD优化器的重要信息： 基本原理：SGD的基本思…

阅读更多...

java：Servlet

java：Servlet

背景我们访问浏览器访问一个地址，最终是访问到了这个 java 类，而 java 是运行在 Tomcat 上的，所以 Tomcat 作为一个服务器会把这个访问地址指向这个类中，这个类就是 Servlet，Servlet 就是一个具有一定规范的类&#x…

阅读更多...

续：string的用法

续：string的用法

续：string的用法 1、字符串插入2、c_str3、分隔后缀4、字符串转化为数值，或数值转化为字符串 1、字符串插入 #define _CRT_SECURE_NO_WARNINGS #include <iostream> #include <string> #include <assert.h> using namespace std;void…

阅读更多...

springBoot-rabbitMq手动确认消息

springBoot-rabbitMq手动确认消息

代码基础怎么写我就不说了，看我的另一篇博客 springBoot整合RabbitMQ（Demo）_我要用代码向我喜欢的女孩表白的博客-CSDN博客假设你要手动ack，怎么做呢？ 通常自动是，mq发给服务端，服务端收到了…

阅读更多...

最新文章