5.22R语言初步学习-1

今天上课讲R语言,要干什么没讲,分析什么,目的是什么没讲。助教基本上就是让我们打开窗口,按要求抄代码指令,代码原理也没讲......再加上最近正好在学概率论与数理统计,肯定是有用的,所以还是学习总结一下吧。

概述:

R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。

与其说R是一种统计软件,还不如说R是一种数学计算的环境,因为R并不是仅仅提供若干统计程序、使用者只需指定数据库和若干参数便可进行一个统计分析。R的思想是:它可以提供一些集成的统计工具,但更大量的是它提供各种数学计算、统计计算的函数,从而使使用者能灵活机动的进行数据分析,甚至创造出符合需要的新的统计计算方法。

目录

1.安装

2. 简单例程上手以及部分学习

R预备知识

简单指令上手 

1.因子化数据帧

2.交叉制表

3.卡方检验

4.二项式检验

返回值

适用场景

注意事项

示例


1.安装

先安装R,再安装Rstudio

  R 官方网站: https://www.r-project.org/
RStudio官网 : https://www.rstudio.com/products/rstudio/download/

2. 简单例程上手以及部分学习

R预备知识

##1-变量名的命名
### 数字不能开头;
### %号是非法字符,不可以用来命名;
### .号后面不可以跟数字;


##2-赋值(赋值给谁,箭头就指向谁)
### 分别是左箭头<-(<键+-键(等号左边的那个,不要按Shift)),等号=,右箭头->
higth<-c(175,169,179,175,180,183)
higth_mean<-mean(higth)#对身高求均值


##3-变量的显示
a<-2
a #命令行直接输入变量名
print(a) #利用print()函数


##4-安装R包
install.packages()
library()


##5-文件的读取
readLines()
read.csv()#推荐使用
read.table()
read.xlsx()


##6-软件的推出与保存
### 可以直接输入q()函数;也可以右上角直接叉掉
### 有.R、.Rdata等后缀,.R一般是保存代码的,.Rdata是保存处理后的数据的。


##7-快捷键介绍
## 运行当前/被选中的代码:`Ctrl`+`Enter`
## 设置工作环境:`Ctrl`+`Shift`+`H`
## 快捷赋值 <- :`alt`+`-`
## 查找不懂的函数:`?函数`,如`?plot`
## R会自动提示你需要的东西

简单指令上手 

Tools->Global options->Pane layout 面板设置##读取文件
getwd() 获取工作目录
setwd("G:/工效学/class_R")  设置工作目录,记得引号
prefsAB <-read.csv("prefsAB.csv")
ide2 <- read.csv("ide2.csv")     读取文件##查看数据
View(prefsAB)#分类变量,需做因子化
prefsAB$Subject = factor(prefsAB$Subject)
prefsAB$Pref = factor(prefsAB$Pref)   在R中使用factor函数来创建因子
str(prefsAB)#需要对类别数据进行因子化,以实现研究对象的分组、分类计算
#可以看到有多少类别和水平##基本统计
summary(prefsAB)
plot(prefsAB$Pref) # 画一个基本的柱状图##执行检验
prfs = xtabs( ~ Pref, data=prefsAB)
prfs
chisq.test(prfs)
binom.test(prfs)install.packages("plyr")              下载程序包
library(plyr)         加载包ddply(ide2,~IDE,summarise,Time.mean=mean(Time),Time.sd=sd(Time))
hist(ide2[ide2$IDE == "VStudio",]$Time)
hist(ide2[ide2$IDE == "Eclipse",]$Time)
plot(Time ~ IDE,data=ide2)#首先是正态性假设
# Shapiro-Wilk normality test(夏皮罗-威尔克检验)
shapiro.test(ide2[ide2$IDE == "VStudio",]$Time) #H0:研究对象符合正态分布。
shapiro.test(ide2[ide2$IDE == "Eclipse",]$Time)
## 满足正态性假设
m = aov(Time ~ IDE, data=ide2) # fit model
shapiro.test(residuals(m)) # test residuals
qqnorm(residuals(m)); qqline(residuals(m))

读取CSV文件、查看数据框、对数据框的特定列进行因子化,并对因子化后的数据进行摘要和绘图。

1.因子化数据帧

因子是用于表示分类数据的类型,这对于分类分析和统计建模非常有用。

factor 函数用于向量或单个列,而不是整个数据框。如果你尝试对整个数据框应用 factor 函数,会遇到错误。你需要对数据框中的特定列进行因子化,而不是对整个数据框。

# 读取CSV文件
prefsAB <- read.csv("prefsAB.csv")
ide2 <- read.csv("ide2.csv")

# 查看数据框内容
View(prefsAB)
View(ide2)

# 对prefsAB数据框中的列进行因子化
prefsAB$Subject <- factor(prefsAB$Subject)
prefsAB$Pref <- factor(prefsAB$Pref)

# 查看因子化后的数据框
View(prefsAB)

# 获取数据框的摘要信息
summary(prefsAB)

# 绘制prefsAB$Pref的图表
plot(prefsAB$Pref)

plot(prefsAB$Pref)绘制 prefsAB 数据框中 Pref 列的条形图有助于可视化每个因子水平的频数。 

summary(ide2) 用于生成并显示数据框的摘要信息,包括每列的统计信息。对于因子列,这将显示每个因子水平的频数。

head() 函数用于查看数据集的开头部分,它默认显示数据框的前六行。这对于快速查看数据集的结构和内容非常有用,可以帮助你了解数据的组织方式和其中包含的信息。

str(ide2) 函数显示了关于数据框 ide2 结构的摘要信息。在这个摘要中,我们可以看到:

  • 数据框 ide2 包含了 40 行观察值(observation)和 3 个变量(variables)。
  • 第一个变量是 Subject,是一个整数(int),表示实验参与者的编号。
  • 第二个变量是 IDE,是一个字符向量(chr),表示实验中使用的集成开发环境(IDE)的名称。
  • 第三个变量是 Time,是一个整数(int),表示实验中使用该 IDE 所花费的时间(以某个单位表示,可能是秒)。

summary(ide2) 函数提供了关于数据框 ide2 中数值变量的摘要统计信息。让我们逐一解释这个摘要:

  • Subject: 这是实验参与者的编号。摘要显示了每个不同值的频数。例如,出现了1次的有1、2、3、4等,没有显示的Subject编号表示频数为1。"Other"行表示其他出现次数少于5次的编号。

  • IDE: 这是实验中使用的集成开发环境(IDE)的名称。摘要显示了每个不同值的频数。在你的数据中,有20次使用Eclipse和20次使用VStudio。

  • Time: 这是实验中使用每个IDE所花费的时间。摘要包括了五个统计量:最小值(Min.)、第一四分位数(1st Qu.)、中位数(Median)、平均值(Mean)、第三四分位数(3rd Qu.)和最大值(Max.)。

2.交叉制表

prfs = xtabs(~Pref,data=prefsAB)

chisq.test(prfs) 

prfs = xtabs(~Pref, data=prefsAB) 执行了一个交叉制表的操作,它会创建一个交叉制表,显示了在 prefsAB 数据框中 Pref 列中各个水平(A 和 B)的频数。xtabs函数用于快速计算一个或多个变量的频率,响应变量~自变量。

  • xtabs 函数是 R 中用来创建交叉制表的函数。
  • ~Pref 表示要对数据框 prefsAB 中的列 Pref 进行交叉制表。
  • data=prefsAB 表示这个操作应该在 prefsAB 数据框中进行。

因此,prfs 变量中存储了一个交叉制表的结果,显示了在 prefsAB 数据框中 Pref 列中各个水平(A 和 B)的频数。

3.卡方检验

卡方检验的目的: 卡方检验用于检验观察到的类别数据是否与期望频率有显著差异。其基本思想是比较观察到的频数(observed frequencies)和期望频数(expected frequencies),并通过计算一个统计量来评估这种差异是否显著。

chisq.test 函数对 prfs 执行卡方检验

输出如下:

Chi-squared test for given probabilities

data:  prfs
X-squared = 17.067, df = 1, p-value = 3.609e-05

结果分析:

  • X-squared = 17.067:这是计算出的卡方统计量。
  • df = 1:这是自由度。
  • p-value = 3.609e-05:这是计算出的p值。

由于p值非常小(远小于0.05),我们可以拒绝零假设,认为 Pref 变量中的A和B类别的出现频率有显著差异。

通过卡方检验,能够确定 prefsAB 数据中 Pref 列的两个类别(A和B)是否存在显著的频数差异。结果显示,A和B的出现频率差异显著,这表明在这个数据集中A和B的分布并不是随机的,可能存在某种偏好或影响因素。

4.二项式检验

binom.test 函数用于执行二项式检验,也称为精确二项检验。它用于检验一个二项分布中的成功概率是否等于某个给定的值。

binom.test(x, n, p = 0.5, alternative = c("two.sided", "less", "greater"), conf.level = 0.95)

  • x: 成功的次数,或者是一个长度为2的向量,包含两个元素,分别是成功的次数和总的试验次数。
  • n: 总的试验次数。如果 x 是一个长度为2的向量,则该参数被忽略。
  • p: 假设的成功概率。默认为0.5。
  • alternative: 检验的备择假设类型,可以是 "two.sided"(双侧检验,默认)、"less"(左侧检验)、或者"greater"(右侧检验)。
  • conf.level: 置信水平,默认为0.95,表示95%的置信水平。

返回值

函数返回一个包含二项式检验的结果的列表,其中包括:

  • estimate: 成功概率的估计值。
  • p-value: 检验的p值。
  • conf.int: 成功概率估计的置信区间。
  • method: 使用的检验方法的名称。
适用场景
  • 当你有一组二项分布的数据,想要检验其中的成功概率是否等于某个给定的值时,可以使用二项式检验。
  • 常见的应用场景包括医学研究、产品测试、市场调查等。
注意事项
  • 在执行二项式检验之前,确保你的数据满足二项分布的假设,即每次试验之间是相互独立的,且成功概率在各次试验中保持不变。
  • 对于小样本数据
    示例

    假设你有一组硬币抛掷的数据,你想要检验硬币正面朝上的概率是否等于0.5。你可以使用 binom.test 函数来进行检验:

  • # 假设你投掷了100次硬币,正面朝上的次数是45次 binom.test(45, 100, p = 0.5)

    binom.test(45, 100, p = 0.5)
    

    这将会执行一个双侧的二项式检验,检验硬币正面朝上的概率是否等于0.5,返回相应的检验结果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/840096.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

PHP质量工具系列之php_CodeSniffer

PHP_CodeSniffer 是一组两个 PHP 脚本&#xff1a;主脚本 phpcs 对 PHP、JavaScript 和 CSS 文件进行标记&#xff0c;以检测是否违反定义的编码标准&#xff1b;第二个脚本 phpcbf 自动纠正违反编码标准的行为。PHP_CodeSniffer 是一个重要的开发工具&#xff0c;可以确保你的…

【简单介绍下近邻算法】

&#x1f308;个人主页: 程序员不想敲代码啊 &#x1f3c6;CSDN优质创作者&#xff0c;CSDN实力新星&#xff0c;CSDN博客专家 &#x1f44d;点赞⭐评论⭐收藏 &#x1f91d;希望本文对您有所裨益&#xff0c;如有不足之处&#xff0c;欢迎在评论区提出指正&#xff0c;让我们共…

Python-3.12.0文档解读-内置函数hash()详细说明+记忆策略+常用场景+巧妙用法+综合技巧

一个认为一切根源都是“自己不够强”的INTJ 个人主页&#xff1a;用哲学编程-CSDN博客专栏&#xff1a;每日一题——举一反三Python编程学习Python内置函数 Python-3.12.0文档解读 目录 详细说明 功能描述 参数 返回值 特性 使用示例 注意事项 记忆策略 常用场景 …

Predictable MDP Abstraction for Unsupervised Model-Based RL

ICML 2023 paper code Intro 文章提出了一种用于无监督基于模型强化学的方法&#xff0c;称为可预测MDP抽象&#xff08;Predictable MDP Abstraction, PMA&#xff09;。在MBRL中&#xff0c;一个关键部分是能够准确建模环境动力学动态模型。然而&#xff0c;这个预测模型误…

debian/control文件中常见字段的介绍

1 简介 在Debian或基于Debian的发行版中&#xff0c;debian/control文件是软件包管理的关键部分。它包含了软件包的各种元数据和安装脚本信息&#xff0c;用于软件包管理系统&#xff08;如dpkg&#xff09;识别如何处理该软件包。以下是debian/control文件中常见字段的详细介…

【SQL国际标准】ISO/IEC 9075:2023 系列SQL的国际标准详情

目录 &#x1f30a;1. 前言 &#x1f30a;2. ISO/IEC 9075:2023 系列SQL的国际标准详情 &#x1f30a;1. 前言 ISO&#xff08;国际标准化组织&#xff0c;International Organization for Standardization&#xff09;是一个独立的、非政府间的国际组织&#xff0c;其宗旨是…

IPKISS ------ AMF 添加自定义层

IPKISS ------ AMF 添加自定义层 正文 正文 很多时候&#xff0c;我们想要添加属于我们自己的层&#xff0c;此时我们需要向 AMF pdk 中的 gdsii.py 和 layers.py 文件添加层的信息。这两个文件的目录如下&#xff1a; 在 gdsii.py 文件下的 TECH.GDSII.LAYERTABLE 字典中我们…

工业大模型带来智能生产新范式

在当前工业行业的发展背景下&#xff0c;大模型技术展现出广阔的应用前景&#xff0c;在提升专业知识的可获取性和传承、优化软件技术的应用、提高数据驱动决策的准确性和效率等方面拥有显著潜力。 ‍‍‍‍‍‍‍‍‍‍据了解&#xff0c;蓝卓“基于supOS工业操作系统的工业大…

查看目录或文件的磁盘使用情况

在排查问题过程中&#xff0c;会遇到磁盘占满&#xff0c;需要排查具体哪个文件占用比较大&#xff0c;此时可以使用du 命令 du [选项] [文件或目录...] 常用的选项包括&#xff1a; -h 或 --human-readable&#xff1a;以人类可读的格式&#xff08;如 K、M、G&#xff09;…

高并发幂等计数器【面试真题】

高并发幂等计数器【面试真题】 前言版权推荐高并发幂等计数器题目初想 最后 前言 2023-8-30 12:07:45 公开发布于 2024-5-22 00:09:47 以下内容源自《【面试真题】》 仅供学习交流使用 版权 禁止其他平台发布时删除以下此话 本文首次发布于CSDN平台 作者是CSDN日星月云 博…

WAF绕过(下)

过流量检测 这里的流量检测就是在网络层的waf拦截到我们向webshell传输的数据包&#xff0c;以及webshell返回的数据 包&#xff0c;检测其中是否包含敏感信息的一种检测方式。如果是大马的情况下&#xff0c;可以在大马中添加多处判断代码&#xff0c;因此在执行大马提供的功…

吉林大学软件工程易错题

1.【单选题】软件工程方法是&#xff08; &#xff09;。 A、为开发软件提供技术上的解决方法 &#xff08;软件工程方法 &#xff09; B、为支持软件开发、维护、管理而研制的计算机程序系统&#xff08;软件工程工具&#xff09; …

设计模式--装饰器模式

引言 装饰器模式&#xff08;Decorator Pattern&#xff09;是一种结构型设计模式&#xff0c;它动态地为对象添加额外的职责&#xff0c;而无需修改原有对象的结构。通过创建装饰类来包裹原有的对象&#xff0c;并在装饰类中添加新功能&#xff0c;从而实现功能的灵活扩展和组…

[力扣题解] 684. 冗余连接

题目&#xff1a;684. 冗余连接 思路 并查集&#xff1b; 从前往后遍历&#xff0c;如果不属于同一个集合&#xff08;不是同一个爸爸&#xff09;&#xff0c;就加入&#xff0c;否则就返回这条边&#xff1b; 因为不属于同一个集合&#xff0c;加入可以形成树&#xff0c;要…

Vue 3 的 setup语法糖工作原理

前言 我们每天写vue3项目的时候都会使用setup语法糖&#xff0c;但是你有没有思考过下面几个问题。setup语法糖经过编译后是什么样子的&#xff1f;为什么在setup顶层定义的变量可以在template中可以直接使用&#xff1f;为什么import一个组件后就可以直接使用&#xff0c;无需…

KDE-Ambari-Metrics-Collector问题排查解决手册

文档说明 本文档是为了解决KDE平台的Ambari-Metrics-Collector服务在运行时遇到的问题而提供的问题排查和解决方法的参考文档 说明: 当前的Ambari-Metrics-Collector服务包括了ams-collector和ams-hbase两个程序,在Ambari-Metrics-Collector安装的节点执行ps -elf|grep am…

远动通讯屏具体干啥作用

远动通讯屏具体干啥作用 远动通讯屏主要用于电力系统中的各类发电厂、变电站、光伏电站、开闭所、配电房等&#xff0c;具有实时传输数据和远程控制功能。它的主要作用包括&#xff1a; 数据采集&#xff1a;远动通讯屏能够采集各种模拟量、开关量和数字量等信息&#xff0c…

Java设计模式-备忘录模式(23)

备忘录模式(Memento Pattern)是一种行为设计模式,它提供了一种在不破坏对象封装性的前提下,捕获并存储对象的内部状态,并且可以在将来需要的时候恢复对象状态的方式。这一模式非常适合用于需要撤销操作或者实现状态回滚的场景。以下是Java中备忘录模式的详细解释: 核心角…

云计算的主要服务模式有哪几种?分别是什么特点?

云计算主要有以下几种服务模式&#xff1a; Infrastructure as a Service (IaaS&#xff0c;基础设施即服务)&#xff1a;提供虚拟化的计算资源&#xff0c;如服务器、存储和网络等基础设施。用户可以根据需要自由配置和管理这些资源&#xff0c;具有灵活性和可扩展性。 Platf…

pod介绍之 容器分类与重启策略

目录 一 pod 基础概念介绍 1&#xff0c;pod 是什么 2&#xff0c;Pod使用方式 3&#xff0c;如何解决一个pod 多容器通信 4&#xff0c;pod 组成 5&#xff0c; k8s 中的 pod 二 pause容器 1&#xff0c;pause容器 是什么 2&#xff0c;pause容器作用 3&#xff…