R语言频率分布直方图绘制教程

本篇笔记分享R语言绘制直方图的方法,通过多种展示风格对数据进行可视化,主要用到ggplot、ggpubr等包。

什么是直方图?

直方图(Histogram),又称质量分布图,是一种统计报告图,由一系列高度不等的柱子表示数据分布的情况。

alt

主要展示数据的分布情况,诸如众数、中位数的大致位置、数据是否存在缺口或者异常值。

直方图和柱形图的区别?

alt
  • 柱形图横轴表示类别:横轴固定

  • 直方图横轴表示组距:横轴可变

  • 直方图的表示的数据通常是连续排列,而柱状图则是分开排列,直方图能展示分布趋势。

R语言绘制直方图方法

先创建一个随机数据用于绘图,该数据表格的第一列是“type”样品分类信息,包含A、B、C三个种类,第二列是随机数字,一共包含600行,将其看做600个样品的某指标数据。

set.seed(666)
df = data.frame(
    type = factor(rep(c("A""B","C"), each=200)),
    val = c(rnorm(200, 56), rnorm(200, 58),rnorm(200, 52)))

创建的随机数据如下所示,在实际的作图过程中,只需整理成类似这种格式即可。 alt 为了直观的展示测试数据的分布,先做个散点图试试:

ggplot(df)+
    geom_point(aes(type,val,color=type),position = "jitter")
alt

明显可以看出C组的均值52左右最低,B组均值58左右最高,组内整体随机分布。

Base R 基础版直方图

hist(df$val
     breaks = 16, #切分多少个条
     col = "#51cf66",
     freq = F,
     xlab = "Value",main = "Hist Plot")
# 添加拟合曲线
lines(density(df$val),col= "#fd7e14",lwd=2)
# 添加下方密度条
rug(jitter(df$val))
alt

这是最基础的直方图,没有展示分组信息,仅对所有的数据统计,可以看出在52和58处有峰值,说明分布频率很高,横轴上有一些条形码一样的黑色竖线,表示样品的分布情况,黑色线越密集,代表此处的值越多。

ggplot2 升级版直方图

library(ggplot2)
ggplot(df,aes(val,..density..)) +
    geom_histogram(bins = 50, fill="#74c0fc") +
    xlab("Insertion Size (bp)") +
    theme_bw()

通过上述代码,可以用ggplot绘制一张简单的直方图,gfill参数后面可以修改颜色,bins参数可以修改条子的数量。

alt

bins参数很重要,它关系到直方图的形状,以下举个例子,分别画两张直方图,左图p1是bins等于10的时候,组距比较宽。右图p2是bins等于50的情况,组距变窄,同时一些隐藏的细节趋势展示的更加清楚。

p1 <- ggplot(diamonds, aes(carat)) +
    geom_histogram(aes(carat,fill=cut),bins = 10)+
    xlim(0,3)+
    theme_bw()
p2 <- ggplot(diamonds, aes(carat)) +
    geom_histogram(aes(carat,fill=cut),bins = 50)+
    xlim(0,3)+
    theme_bw()
library(patchwork)
p1+p2
alt

由上图可知,不同的分组数量bins影响了信息的传递,在实际过程中若想模糊细节展示整体,则将bins设置的小一些。

多组分面直方图

假如有多个分组或者水平因素,想要看不同分组的直方图,则借助分面功能实现。例如在本文中A、B、C三个分组的直方图,通过下面的代码绘图:

ggplot(df,aes(val,..density..)) +
    geom_histogram(aes(fill=type),bins = 30,color="#ffffff") +
    facet_wrap(~type, scales = 'free_x') +
    xlab("Insertion Size (bp)") +
    theme_bw()
alt

这样就可以将不同类型分开绘制,观察每个组内样品的指标数据分布趋势,可以发现三个组都是呈正态分布。

ggpubr 尊享版直方图

gghistogram函数提供了一个便捷绘制好看直方图的方法,只需简单的几行代码,就能生成漂亮的直方图。

library(ggpubr)
gghistogram(df, x = "val",
            fill = "#3bc9db"# 设置填充色
            add = "mean"# 添加均值线
            rug = TRUE # 添加轴须线
)

先画一张基础的直方图,fill参数可以修改颜色,add参数可以添加辅助线,比如这里就添加了一条均值竖线,rug是绘制横轴的条形码须线。

alt

但是,上图中把三个组的样品数据混在一起统计,下面将其分开用不同颜色表示:

gghistogram(df,
            x="val",
            add="mean",
            rug = TRUE,
            color = "type",
            fill = "type",
            palette = c("#0fb9b1","#f7b731","#8854d0"),
            bins = 50,
            add_density = FALSE,
            xlab = "公众号:生信分析笔记")

如果想在图中对直方图添加拟合曲线展示密度信息,只需将add_density改为TURE即可。

alt

堆叠形式直方图

接下来,再分享两种堆叠形式的直方图,用途是比较不同分组的数据。首先重新修改一下随机生成的测试数据,注意A组的样品数减少到100,B组样品数增加到300,以下是新的数据框:

df = data.frame(
    type = factor(rep(c("A""B","C"), each=200)),
    val = c(rnorm(100, 56), rnorm(300, 58),rnorm(200, 57)))

画一张普通的直方图看看效果:

ggplot(df)+
    geom_histogram(aes(val,fill=type),bins = 20)+
    scale_fill_brewer()+
    theme_bw()
alt

整体趋势比较明显,均值都在57附近,只不过不同组的数据个数不一样,正如所料,整体的趋势都呈正态分布。

再添加亿点点细节:

ggplot(df,aes(val,fill=type))+
    geom_histogram(bins = 40,color="black",alpha=0.8)+
    scale_fill_manual(values = c("A"="#a3cd5b",
                                 "B"="#f7b731",
                                 "C"="#0fb9b1"),
                      labels=c("A"="Type A",
                               "B"="Type B",
                               "C"="Type C"))+
    geom_vline(xintercept = 57,lty="dashed")+
    theme_bw()+
    theme(panel.border = element_blank(),
          panel.grid = element_blank(),
          axis.line = element_line(),
          legend.position = c(0.9,0.8),
          legend.background = element_rect(fill = "transparent"),
          legend.title = element_blank())
alt

上面这张图展示了不同种类样品的数据分布规律,这种分布是柱形堆叠格式“stack”,现在将其转换成密度曲线图,你能看出下面这张图的区别吗?

ggplot(df,aes(val,fill=type))+
    geom_density(alpha=0.5,
                 position = "stack")+
    scale_fill_manual(values = c("#a3cd5b","#f7b731","#0fb9b1"))
alt

是不是感觉似曾相识,直方图和密度曲线的规律是一样的,因为它们都是用同样的数据做出的图,呈现出相同的变化趋势。

还有一种位置展示方式“identity”,它不会将不同分组的值堆叠累加到一起,而是都从Y等于0为起始位置,只需修改上方代码中的“stack”为“identity”,即可看出效果区别。

alt

不知道你有没有发现,这个图就是小提琴图的一半,因为这个密度曲线实际上反映了数据的分布,而小提琴图的宽窄也反应数据的分布,因此二者本质一样。

ggplot(df)+
    geom_violin(aes(x=type,y=val,fill=type))+
    scale_fill_manual(values = c("#0fb9b1","#f7b731","#8854d0"))+
    theme_bw()
alt

对比一下,就能看出小提琴图、直方图、密度图存在互通之处,比如Type C类型的数据分布比较集中,因此小提琴图中紫色的中间部分凸出明显,而且上面密度曲线的紫色也区域中间也明显凸起。

翻转直方图

有时候还想比较两组之间的分布趋势差异,那么将两个直方图按横轴翻转放置,展示效果更佳。

ggplot(df,aes(val,fill=type))+
    geom_histogram(data = filter(df,type=="B"),
                   aes(y=..count..),
                   bins = 40,
                   color="#ffffff")+
    geom_histogram(data = filter(df,type=="C"),
                   aes(y=..count..*(-1)),
                   bins = 40,
                   color="#ffffff")+
    scale_fill_manual(values = c("#0fb9b1","#8854d0"))+
    labs(x='Value',y='Frequency')+
    theme_bw()+
    theme(legend.position = c(0.1,0.3))
alt

此时可以看出,C组紫色的分布明显更集中一些,该图信息直观明了。本次直方图分享到这里完毕,感谢您的阅读,建议收藏转发,有备无患,万一之后需要用到这个绘图方法,换一下数据就可以。

本文由 mdnice 多平台发布

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/598157.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Java集合类篇】HashMap的数据结构是怎样的?

HashMap的数据结构是怎样的? ✔️HashMap的数据结构✔️ 数组✔️ 链表 ✔️HashMap的数据结构 在Java中&#xff0c;保存数据有两种比较简单的数据结构: 数组和链表&#xff08;或红黑树&#xff09;。 HashMap是 Java 中常用的数据结构&#xff0c;它实现了 Map 接口。Has…

STM32 CubeMX产生的程序架构

使用STM32CubeMX产生启动相关代码&#xff0c;配置各种外设。在后续程序开发过程中&#xff0c;有可能使用STM32CubeMX逐步产生使用的代码&#xff0c;为了将其产生的代码和我们程序隔离&#xff0c;一种可行的程序架构如下&#xff1a; 在此架构中&#xff0c;STM32CubeMX产生…

GraphQL和REST API的区别

我的新书《Android App开发入门与实战》已于2020年8月由人民邮电出版社出版&#xff0c;欢迎购买。点击进入详情 GraphQL&#xff08;Graph Query Language&#xff09;和REST&#xff08;Representational State Transfer&#xff09;是两种用于构建和设计API的不同方法。以下…

电脑屏幕一直闪烁怎么解决?三大妙招还你清晰视野

电脑屏幕闪烁一直是困扰用户的一个问题&#xff0c;它会影响到用户的使用体验&#xff0c;甚至可能导致眼睛疲劳和头痛。可是电脑屏幕一直闪烁怎么解决呢&#xff1f;在本文中&#xff0c;我们将介绍三个解决电脑屏幕闪烁的方法&#xff0c;从简单的软件调整到硬件检测&#xf…

亚马逊图片上传后变模糊怎么办?亚马逊图片优化指南—站斧浏览器

亚马逊图片上传后变模糊怎么办&#xff1f; 使用高分辨率图片&#xff1a;亚马逊建议卖家使用至少1000 x 1000像素的高分辨率图片。如果您上传的图片分辨率较低&#xff0c;亚马逊系统可能会将其自动调整为较小的尺寸&#xff0c;导致图片模糊。因此&#xff0c;确保您使用高质…

基于Java SSM框架实现宠物管理系统项目【项目源码+论文说明】计算机毕业设计

基于java的SSM框架实现宠物管理系统演示 摘要 随着我国经济的快速发展&#xff0c;人民生活水平的不断提高&#xff0c;宠物逐渐成为许多宠物爱好者的一种生活方式。 宠物的品种也越来越多样化&#xff0c;宠物不仅能给生活带来乐趣还可以成为空巢老人&#xff0c;独生子女很…

MongoDB批量写入操作

一、概述 MongoDB为客户端提供了批量执行写入操作的能力。批量写入操作影响单个集合。MongoDB允许应用程序确定批量写入操作所需的可接受确认级别。 db.collection.bulkWrite&#xff08;&#xff09;方法提供了执行批量插入、更新和删除操作的能力。 MongoDB还支持通过db.col…

补码的乘法-布斯乘法

前言 本篇文章讲解如何通过逻辑门的形式来实现补码的乘法操作 布斯乘法 A.D.Booth提出了一种补码相乘算法,可以将符号位与数值位合在一起参与运算&#xff0c;直接得出用补码表示的乘积&#xff0c;且正数和负数同等对待。这种算法被称之为Booth (布斯)乘法 下面有两个变量值…

【量化金融】《证券投资学》吴晓求(第四版)(更新中)

这里写目录标题 第一篇 基本知识第1章 证券投资工具名词解释简答题 第2章 证券市场名词解释简答题 第二篇 基本分析第三篇 技术分析第四篇 组合管理第五篇 量化分析与交易策略 第一篇 基本知识 第1章 证券投资工具 名词解释 风险&#xff08;risk&#xff09; 未来结果的不…

【hcie-cloud】【16】业务上云迁移、Rainbow详述

文章目录 前言华为业务迁移解决方案概述业务上云背景概述业务迁移场景需求及挑战业务迁移的价值华为业务迁移解决方案 - 全景图华为业务迁移解决方案的优势 Rainbow迁移工具介绍Rainbow迁移原理介绍Rainbow迁移工具简介Rainbow迁移工具定位Rainbow迁移视图Rainbow迁移原理 - Wi…

JumpServer3.0版本-账号管理

账号列表 我这里已经创建好了所以有很多,可以点击资产树列表分类查看 点击创建按钮,添加账号 资产:如果多个设备的账号密码一致可以在资产同事选中 名称:方便辨识即可 用户名:登录设备的账户名 密码:按你登录需求自行选择 添加按钮旁边还有个“模版添加” 此功能便…

yolov8实战第五天——yolov8+ffmpg实时视频流检测并进行实时推流——(推流,保姆教学)

yolov8实战第一天——yolov8部署并训练自己的数据集&#xff08;保姆式教程&#xff09;_yolov8训练自己的数据集-CSDN博客 yolov8实战第三天——yolov8TensorRT部署&#xff08;python推理&#xff09;&#xff08;保姆教学&#xff09;-CSDN博客 今天&#xff0c;我们继续y…

Java TBA访问NetSuite Restlet时的403错误

本周有同学问为啥Java访问NetSuite Restlet时&#xff0c;按照知识会之前的文章分享&#xff0c;会一直报403 INVALID_LOGIN_ATTEMPT错误。 https://nk-community.blog.csdn.net/article/details/131399801https://nk-community.blog.csdn.net/article/details/131399801原因是…

线程同步之:QReadWriteLock

1、 使用互斥量QMutex时候存在一个问题 每次只能有一个线程获得互斥量的权限。如果在一个程序中有多个线程“读”取某个变量&#xff0c;使用互斥量时也必须排队&#xff01; 然而&#xff0c;实际情况是允许&#xff1a;让多个线程同时“读”&#xff01; 这样互斥量 就会降…

面试官:说说flexbox(弹性盒flex布局),以及适用场景?

面试官&#xff1a;说说flexbox&#xff08;弹性盒布局模型&#xff09;,以及适用场景&#xff1f; 一、是什么 Flexible Box 简称 flex&#xff0c;意为”弹性布局”&#xff0c;可以简便、完整、响应式地实现各种页面布局 采用Flex布局的元素&#xff0c;称为flex容器conta…

面试官:线程池的7种创建方式,你都清楚吗?

文章目录 前言1. 固定数量的线程池a. 线程池返回结果b. ⾃定义线程池名称或优先级 2. 带缓存的线程池3. 执⾏定时任务a. 延迟执行(一次)b. 固定频率执行c. scheduleAtFixedRate VS scheduleWithFixedDelay 4. 定时任务单线程5. 单线程线程池6. 根据当前CPU⽣成线程池 前言 线程…

CRM管理系统八大特性,如何帮助企业提升业务效能?

CRM管理系统的使用率逐年上升&#xff0c;这离不开企业对客户的依赖——管理好客户关系是企业发展你的重要因素&#xff0c;由此可见CRM对于任何成长中的企业都是必不可少的。以前我们写过很多关于CRM功能的文章&#xff0c;这篇文章换个思路&#xff0c;想一想CRM管理系统主要…

Pytorch从零开始实战15

Pytorch从零开始实战——ResNeXt-50算法实战 本系列来源于365天深度学习训练营 原作者K同学 文章目录 Pytorch从零开始实战——ResNeXt-50算法实战环境准备数据集模型选择开始训练可视化总结 环境准备 本文基于Jupyter notebook&#xff0c;使用Python3.8&#xff0c;Pytor…

Unity中Shader序列图动画(UV流动的通用起始点)

文章目录 前言一、一般序列帧动画是按照序列图如下顺序读取的二、在Shader找到UV流动的起始点1、先实现纹理采样2、得到 uv 走格的单位格子大小3、定位到左上角为起始单位格 三、使UV流动的起始点通用化1、在属性面板接收 行 和 列的属性2、看图片可以总结出第一个单元格的公式…

Kotlin/JS工程构建及编译运行到浏览器

概述 Kotlin/JS 提供了转换 Kotlin 代码、Kotlin 标准库的能力&#xff0c;并且兼容 JavaScript 的任何依赖项。Kotlin/JS 的当前实现以 ES5 为目标。 使用 Kotlin/JS 的推荐方法是通过 kotlin.multiplatform Gradle 插件。它提供了一种集中且便捷的方式来设置与控制以 JavaS…