国家统计局教育部各级各类学历教育学生情况数据爬取

教育部数据爬取

    • 1、数据来源
    • 2、爬取目标
    • 3、网页分析
    • 4、爬取与解析
    • 5、如何使用Excel打开CSV


1、数据来源


国家统计局:http://www.stats.gov.cn/sj/

在这里插入图片描述

教育部:http://www.moe.gov.cn/jyb_sjzl/

在这里插入图片描述

数据来源:国家统计局教育部文献教育统计数据2021年全国基本情况(各级各类学历教育学生情况)

我们看到,最新的数据是到2021年

2、爬取目标


本次,我们爬取2021年教育统计数据全国基本情况各级各类学历教育学生情况数据

在这里插入图片描述

数据(部分)如下:

在这里插入图片描述

爬虫前必备知识:Python网络爬虫基本库详解:https://blog.csdn.net/weixin_55629186/article/details/132415946

3、网页分析


经过分析,我们发现,数据形式为HTML,数据主要嵌入在table标签中

在这里插入图片描述

4、爬取与解析


1)环境准备

import numpy as np
import pandas as pd
import requests
import re
from bs4 import BeautifulSoup

2)发起请求,获取响应

# URL
url = 'http://www.moe.gov.cn/jyb_sjzl/moe_560/2021/quanguo/202301/t20230104_1038067.html'
# 数据保存路径
out_path = r"C:\Users\cc\Desktop"def get_html_str(callback):headers = {

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/130167.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

编写shell脚本,利用mysqldump实现MySQL数据库分库分表备份

查看数据和数据表 mysql -uroot -p123456 -e show databases mysql -uroot -p123456 -e show tables from cb_d 删除头部Database和数据库自带的表 mysql -uroot -p123456 -e show databases -N | egrep -v "information_schema|mysql|performance_schema|sys"编写…

HTML和CSS的基础-前端扫盲

想要写出一个网页,就需要学习前端开发(写网页代码)和后端开发(服务器代码)。 对于前端的要求,我们不需要了解很深,仅仅需要做到扫盲的程度就可以了。 写前端,主要用到的有&#xf…

蓝鹏测控测宽仪系列又添一员大将——双目测宽仪

轧钢过程中钢板的宽度是一个重要的参数,它直接决定了成材率。同时,随着高新科技越来越广泛的应用到工程实际中,许多控制系统需要钢板实时宽度值作为模型参数。 当前,相当一部分宽厚板厂还在采用人工检测的方法,检测环境…

代码随想录算法训练营第23期day42|1049. 最后一块石头的重量II、494. 目标和、474.一和零

目录 一、(leetcode 1049)最后一块石头的重量II 二、(leetcode 494)目标和 三、(leetcode 474)一和零 一、(leetcode 1049)最后一块石头的重量II 力扣题目链接 状态:…

【漏洞复现】Drupal XSS漏洞复现

感谢互联网提供分享知识与智慧,在法治的社会里,请遵守有关法律法规 复现环境:Vulhub 环境启动后,访问 http://192.168.80.141:8080/ 将会看到drupal的安装页面,一路默认配置下一步安装。因为没有mysql环境,…

Mac下使用nvm,执行微信小程序自定义处理命令失败

环境 系统:Mac OS 终端:zsh CPU:M1/ARM架构 node环境:nvm,node20 node目录:/Users/laoxu/.nvm/versions/node/v20.1.0/bin/ 问题 在使用微信小程序的自定义处理命令时,启动失败 提示找不…

【音视频 | Ogg】libogg库详细介绍以及使用——附带libogg库解析.opus文件的C源码

😁博客主页😁:🚀https://blog.csdn.net/wkd_007🚀 🤑博客内容🤑:🍭嵌入式开发、Linux、C语言、C、数据结构、音视频🍭 🤣本文内容🤣&a…

全国大学生GIS应用技能大赛2023-12

一、题目背景 为了计算不同高程区间范围内流域的面积,要求根据提供的DEM数据,按照要求,计算不同高程区间范围内流域的面积。 二、数据说明 1、DEM:某地区的数字高程模型; 三、题目要求 根据提供的数字高程模型&am…

算法随想录算法训练营第四十九天| 503.下一个更大元素II 42. 接雨水

503.下一个更大元素II 题目:给定一个循环数组 nums ( nums[nums.length - 1] 的下一个元素是 nums[0] ),返回 nums 中每个元素的 下一个更大元素 。数字 x 的 下一个更大的元素 是按数组遍历顺序,这个数字之后的第一个…

layer.open再次渲染html,子页面调用在父页面打开弹出层,渲染html

使用的版本 layui-v2.5.6是在父页面弹出层&#xff0c;显示&#xff1b;调用的是父页面的layer.open(); 父页面&#xff1a; <link href"/layui/css/layui.css" rel"stylesheet" /> <script src"/layui/layui.all.js"></script…

算法题:16. 最接近的三数之和(Python Java 详解)

解题思路 Step1&#xff1a;先对数组排序&#xff0c;然后设置3个指针&#xff0c;指针1遍历范围为&#xff08;0~数组长度减2&#xff09;。 Step2&#xff1a;指针1位置确定时&#xff0c;指针1后面的数组元素首位各放置一个指针&#xff08;指针2、指针3&#xff09;。 S…

项目中用到的git指令合集

目录 前言一、删除分支本地远程 二、不小心删除未合并成功的分支总结 前言 提示&#xff1a;这里可以添加本文要记录的大概内容&#xff1a; 做了一个git的常用指令合集&#xff0c;包含具体场景介绍 提示&#xff1a;以下是本篇文章正文内容&#xff0c;下面案例可供参考 一…

Python笔记——linux/ubuntu下安装mamba,安装bob.learn库

Python笔记——linux/ubuntu下安装mamba&#xff0c;安装bob.learn库 一、安装/卸载anaconda二、安装mamba1. 命令行安装&#xff08;大坑&#xff0c;不推荐&#xff09;2. 命令行下载guihub上的安装包并安装&#xff08;推荐&#xff09;3. 网站下载安装包并安装&#xff08;…

ubuntu外接显示器、不识别笔记本显示器

如题&#xff1a;ubuntu外接显示器、不识别笔记本显示器 双屏幕&#xff0c;笔记本外接显示器HDMI&#xff0c;然后安装Nvidia显卡驱动&#xff0c;之后重启笔记本显示器无法识别&#xff0c;只能使用外接显示器了。 中文网站找遍了都没有解决方案&#xff0c;然后用英文搜索&a…

电路正负反馈,电压电流反馈,串并联反馈详细判别方法

正/负反馈&#xff1a;假设输出升高&#xff0c;转一圈回来仍使其升高就是正反馈&#xff0c;反之就是负反馈。作图法&#xff1a;在RL的信号端画一个向上的小箭头&#xff0c;沿着反馈环路&#xff0c;每经过一个元器件就画一个相应的箭头&#xff0c;一直画到放大器的输出端&…

用C++QT实现一个modbus rtu通讯程序框架

下面是一个简单的Modbus RTU通讯程序框架的示例&#xff0c;使用C和QT来实现&#xff1a; #include <QCoreApplication> #include <QSerialPort> #include <QModbusDataUnit> #include <QModbusRtuSerialMaster>int main(int argc, char *argv[]) {QC…

代理模式(静态代理、JDK代理、CGLIB代理)

简介 代理模式有三种不同的形式&#xff1a;静态代理、动态代理&#xff08;JDK代理、接口代理&#xff09;、CGLIB代理 目标&#xff1a;在不修改目标对象的前提下&#xff0c;对目标对象进行扩展。 静态代理 需要定义接口或父类对象&#xff0c;被代理对象和代理对象通过实…

asp.net docker-compose添加dapr配置

docker-compose.yml添加配置 webapplication1-dapr:image: "daprio/daprd:1.9.6"network_mode: "service:webapplication1"depends_on:- webapplication1 docker-compose.override.yml中添加 dapr-placement:command: ["./placement", "-po…

【数据结构】顺序表的学习

前言:在之前我们学习了C语言的各种各样的语法&#xff0c;因此我们今天开始学习数据结构这一个模块&#xff0c;因此我们就从第一个部分来开始学习"顺序表"。 &#x1f496; 博主CSDN主页:卫卫卫的个人主页 &#x1f49e; &#x1f449; 专栏分类:数据结构 &#x1f…

windows和docker环境下springboot整合gdal3.x

链接: gdal官网地址 gdal gdal的一个用c语言编写的库&#xff0c;用于处理地理信息相关的数据包括转换&#xff0c;识别数据&#xff0c;格式化数据以及解析 同时提供第三方语言的SDK包括python&#xff0c;java上述需要编译后使用 java是需要使用jni接口调用实现方法在wind…