R语言 爬取数据+简单清洗

小小练习。见代码+注释

 
# 加载必要的包
library(rvest)
library(dplyr)
library(tidyr)# 指定网页URL
url <- "https://research.un.org/en/unmembers/scmembers"# 读取网页内容
webpage <- read_html(url)# 提取所有表格节点
table_nodes <- html_nodes(webpage, "table")# 将第一个表格转换为数据框
sc_members_table1 <- html_table(table_nodes[1], fill = TRUE)
# 将第二个表格转换为数据框
sc_members_table2 <- html_table(table_nodes[2], fill = TRUE)# 合并两个数据框
sc_members_combined <- bind_rows(sc_members_table1, sc_members_table2)# 显示合并后的数据框
print(sc_members_combined)# 保存合并后的数据框为CSV文件
write.csv(sc_members_combined, "web_data.csv", row.names = FALSE)# ------------------------------ 处理数据。  ------------------------------ # 读取CSV文件
data <- read.csv("web_data.csv", stringsAsFactors = FALSE)
data# 删掉最后一列
data <- data[, -ncol(data)]head(data, 2)# 拆分Members of Security Council列print(colnames(data))# Members.of.Security.Council# 分割国家为单独的行 Members of Security Council
data_split <- data %>%separate_rows(`Members.of.Security.Council`, sep = ", ") %>%select(Year, `Members.of.Security.Council`)# 重命名列
colnames(data_split) <- c("Year", "Country")# 列出联合国常任理事国的英文名字
permanent_members <- c("China", "France", "Russian Federation", "United Kingdom", "United States")# 新建一列 votes,所有值为 1
data_split <- data_split %>%mutate(votes = 1)# 新建一列 veto,对于常任理事国,veto 值为 1,否则为 0
data_split <- data_split %>%mutate(veto = ifelse(Country %in% permanent_members, 1, 0))# 新建一列 vote_share,根据 Year 列的值进行计算
data_split <- data_split %>%mutate(vote_share = ifelse(Year >= 1996, 1/15, 1/11))# 保存结果到新的CSV文件
write.csv(data_split, "clean_data.csv", row.names = FALSE)# 查看结果
print(data_split)

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/877306.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

vite查漏补缺

一、静态资源处理 //png txt后缀的文件不会检测是否存在&#xff0c;js json vue文件会检测是否存在 import test from "/assets/imgs/test1.png" console.log(test); // /src/assets/imgs/test1.png返回图片的绝对路径// 显式加载资源为一个 URL import test fr…

如何设置SQL Server的端口:详细步骤指南

如何设置SQL Server的端口&#xff1a;详细步骤指南 在SQL Server中&#xff0c;配置端口是确保数据库服务能够正确通信的重要步骤。无论是为了提高安全性还是满足特定的网络配置需求&#xff0c;正确设置SQL Server的端口都是必要的。本文将详细介绍如何设置SQL Server的端口…

深入理解Java中的volatile关键字

深入理解Java中的volatile关键字 1. 引言 在Java多线程编程中,volatile关键字扮演着重要角色。它能够保证变量的可见性和有序性,是实现线程安全的重要工具之一。本文将深入探讨volatile的实现原理,以及与之密切相关的指令重排概念。 2. volatile的作用 volatile关键字主要有…

基于人工智能及大数据的综合智能交通管理平台(可编辑30页PPT)

引言&#xff1a;随着城市化进程的加速和汽车保有量的快速增长&#xff0c;交通拥堵、交通事故频发以及交通资源分配不均等问题日益突出&#xff0c;成为制约城市发展的重要因素。为了应对这些挑战&#xff0c;基于人工智能&#xff08;AI&#xff09;及大数据技术的综合智能交…

【React】详解自定义 Hook

文章目录 一、自定义 Hook 的基本用法1. 什么是自定义 Hook&#xff1f;2. 创建自定义 Hook3. 使用自定义 Hook 二、自定义 Hook 的进阶应用1. 处理副作用2. 组合多个 Hook3. 参数化 Hook4. 条件逻辑 三、自定义 Hook 的实际应用案例1. 实现用户身份验证2. 实现媒体查询 四、最…

民大食堂用餐小程序的设计

管理员账户功能包括&#xff1a;系统首页&#xff0c;个人中心&#xff0c;用户管理&#xff0c;商家管理&#xff0c;档口号管理&#xff0c;商家餐品管理&#xff0c;餐品种类管理&#xff0c;购物车管理&#xff0c;订单信息管理 微信端账号功能包括&#xff1a;系统首页&a…

学懂C语言(二十六):学会C语言 typedef 关键字的应用

用一句话来说&#xff0c;typedef为已存在的数据类型创建 新的类型 别名。 typedef是C语言中的一个关键字&#xff0c;用于为已存在的数据类型创建新的类型别名。它能提高代码的可读性、可维护性以及便于跨平台移植。以下是typedef关键字在C语言中的几种常见应用&#xff1a; …

angular入门基础教程(七)系统路由

路由的实现 当我们系统越来复杂&#xff0c;功能越来越多&#xff0c;路由也就是必须的了。在 ng 中如何实现路由呢&#xff1f; 启用路由 在 app 目录下&#xff0c;新建一个 router 目录&#xff0c;把 app.routers.ts 文件拷贝过来&#xff0c;并修改一下。 import { Ro…

PostgreSQL 之 to_timestamp函数

to_timestamp 是 PostgreSQL 中的一个函数&#xff0c;用于将字符串或数字转换为时间戳。以下是关于 to_timestamp 的详细介绍&#xff1a; 引入版本 to_timestamp 函数在 PostgreSQL 7.3 版本中引入。 语法 to_timestamp 有两种主要的用法&#xff1a; 1.将字符串转换为时间…

C语言程序设计16

程序设计16 问题16_1代码16_1结果16_1 问题16_2代码16_2结果16_2 问题16_3代码16_3结果16_3 问题16_1 函数 f u n fun fun 的功能是&#xff1a;逆置数组元素中的值。 例如&#xff0c;若形参 a a a 所指数组中的数据最初排列为 &#xff1a; 1 , 2 , 3 , 4 , 5 , 6 …

flask 开始

# 导入flask类 from flask import Flask,request,render_template # 使用flask类来创建一个app对象 # __name__ 代表当前app.py 这个模块 app Flask(__name__) # 创建一个路由和视图函数的映射 url http://127.0.0.1:5000/ app.route("/") def hello_word():return …

高职院校大数据人才培养成果导向系统构建、实施要点与评量方法

一、引言 在当今信息化快速发展的背景下&#xff0c;大数据已成为推动社会进步和产业升级的重要力量。为满足社会对大数据人才的需求&#xff0c;高职院校纷纷开设大数据相关专业&#xff0c;并致力于探索科学有效的人才培养模式。本文立足于我国信息化与智能化发展趋势&#…

【初阶数据结构】10.排序(1)

文章目录 1.排序概念及运用1.1 概念1.2 运用1.3 常见排序算法 2. 实现常见排序算法2.1 插入排序2.1.1 直接插入排序2.1.2 希尔排序2.1.2.1 希尔排序的时间复杂度计算 2.2 选择排序2.2.1 直接选择排序2.2.2 堆排序 1.排序概念及运用 1.1 概念 排序&#xff1a;所谓排序&#x…

如何用PostMan按照规律进行循环访问接口

①设置动态变量 步骤一: 设置环境变量 1. 创建环境变量集合 在 Postman 左上角选择 "环境"&#xff0c;然后点击 "添加" 来创建一个新的环境变量集合。给它起一个名称&#xff0c;比如 "uploadDemo". 2. 添加初始变量 在新创建的环境变量集…

基于python的百度迁徙迁入、迁出数据分析(三)

百度迁徙定义 百度迁徙释义&#xff1a; 百度迁徙以用户常住地所在地市或停留超过一天的非常住地定义为出发城市&#xff0c;以用户离开出发城市&#xff0c;并在非出发城市停留超过4 h以上定义为到达城市。采用4h阈值&#xff0c;排除了城际出行中的途经地。 定义参考来源…

filament 初使用记录

安装初始化 一、环境准备 官网要的 我安装的 二、下载安装 安装laravel composer create-project --prefer-dist laravel/laravel 项目名称 10.*导入 filament composer require filament/filament注册 filament 管理面板 php artisan filament:install --panels初始化…

freertos-HAL库-STM32Cubemax生成

打开cubemax选好型号配置RCC&#xff08;外部高速时钟&#xff09;这里查看原理图&#xff0c;我们把按键设为输入&#xff0c;led设为输出创建两个新任务&#xff08;default是系统创建的&#xff09;配置时钟&#xff0c;这里HSE是外部高速时钟&#xff0c;HSI是内部的&#…

axure10的安装与使用教程,问题整理

前言&#xff1a; axure10的安装与激活使用教程。 1、百度网盘下载相关资料 链接&#xff1a;https://pan.baidu.com/s/1OSD9J1wVuIptGxeRzwjlpA?pwddkbj 提取码&#xff1a;dkbj 2、开始安装&#xff0c;点击setup的安装包 除了更改地址外&#xff0c;其他的默认就行&…

构建实时Java数据处理系统:技术与实践

构建实时Java数据处理系统&#xff1a;技术与实践 大家好&#xff0c;我是微赚淘客系统3.0的小编&#xff0c;是个冬天不穿秋裤&#xff0c;天冷也要风度的程序猿&#xff01;今天&#xff0c;我们将深入探讨如何构建一个实时Java数据处理系统。这涉及到数据流处理、实时计算以…

软件可靠性测试方法

可靠性测试方法&#xff0c; 也是一些通用的测试方法&#xff0c; 和具体业务无关&#xff0c; 包括&#xff1a; 异常值输入法。故障植入法。稳定性测试法。压力测试法。恢复测试法。 1.异常值输入法 异常值输入法是一种使用系统不允许用户输入的数值&#xff08; 即异常值&a…