【生物信息学】层次聚类过程

文章目录

  • 一、理论
  • 二、实践
    • 过程1
    • 过程2

一、理论

  层次聚类是一种基于树状结构的聚类方法,它试图通过在不同层次上逐步合并或分裂数据集来构建聚类结构。这个树状结构通常被称为“树状图”(dendrogram),其中每个节点代表一个数据点或一组数据点,而连接节点的分支表示聚类的形成过程。
  下面是层次聚类的一般原理:

  1. 距离矩阵计算: 首先,计算数据集中每对数据点之间的距离。这可以是欧氏距离、曼哈顿距离、相关性等不同的距离度量。

  2. 初始化: 将每个数据点作为一个独立的簇,形成初始的聚类。

  3. 迭代合并或分裂: 从最小距离开始,迭代地合并或分裂簇,直到满足某个停止条件。

    • 合并(Agglomerative): 从底层开始,将最近的两个簇合并为一个新的簇。合并的标准可以是簇内点之间的最小距离、最大距离、平均距离等。

    • 分裂(Divisive): 从顶层开始,将一个簇分裂成两个新的簇。分裂的标准通常是选择一个簇中的一个点,然后将其他点分配给最近的簇。

  4. 更新距离矩阵: 在每次合并或分裂后,更新距离矩阵,反映新形成的簇之间的距离。

  5. 形成树状图: 记录每次合并或分裂的过程,形成树状图。树状图的叶子节点代表单个数据点,内部节点代表合并的簇。

  6. 停止条件: 根据具体任务和目标选择停止合并或分裂的条件,可以是簇的数量、簇的直径、距离的阈值等。

  层次聚类的优点之一是它提供了在不同层次上观察数据结构的能力,同时不需要预先指定簇的数量。然而,由于其复杂度较高,对大型数据集的处理可能会受到计算资源的限制。

二、实践

  考虑下图所示的单链聚类,其中数据集包含 5 个点,任意两点之间的距离在图的左下角给出。绘制其按照Mini-Distance树状图

δ \delta δBCDE
A1324
B323
C13
D5

聚类过程:
  用 δ ( A , B ) \delta(A, B) δ(A,B) 表示两个簇 A 和 B 之间的距离,这个距离可以根据不同的标准进行计算,比如最小距离、最大距离、平均距离等。

过程1

  这里 δ ( A , B ) = 1 , δ ( C , D ) = 1 \delta(A,B)=1,\delta(C,D)=1 δ(A,B)=1,δ(C,D)=1,选择先合并AB,则 δ ( A B , E ) = min ⁡ ( δ ( A , E ) , δ ( B , E ) ) = 3 \delta(AB,E)=\min(\delta(A,E),\delta(B,E))=3 δ(AB,E)=min(δ(A,E),δ(B,E))=3

δ \delta δCDE
AB323
C13
D5
  • 再合并CD,则
δ \delta δCDE
AB23
CD3
  • 再合并ABCD,则
δ \delta δE
ABCD3
            ┌──────── ABCDE ────────┐│3             		    │┌──── ABCD ────┐     		││2            23│
┌───── AB ────┐ ┌──── CD ───┐		│
│1           1│ │1          │1	 	│
A		      B C			D		E

过程2

  • 选择先合并CD
δ \delta δBCDE
A1324
B323
C13
D5
  • δ ( C D , E ) = min ⁡ ( δ ( C , E ) , δ ( D , E ) ) = 3 \delta(CD,E)=\min(\delta(C,E),\delta(D,E))=3 δ(CD,E)=min(δ(C,E),δ(D,E))=3
  • δ ( C D , A ) = min ⁡ ( δ ( C , A ) , δ ( D , A ) ) = 2 \delta(CD,A)=\min(\delta(C,A),\delta(D,A))=2 δ(CD,A)=min(δ(C,A),δ(D,A))=2
  • δ ( C D , B ) = min ⁡ ( δ ( C , B ) , δ ( D , B ) ) = 2 \delta(CD,B)=\min(\delta(C,B),\delta(D,B))=2 δ(CD,B)=min(δ(C,B),δ(D,B))=2
δ \delta δBCDE
A124
B23
CD3
  • 再合并AB

  • δ ( A B , C D ) = min ⁡ ( δ ( A , C D ) , δ ( B , C D ) ) = 2 \delta(AB,CD)=\min(\delta(A,CD),\delta(B,CD))=2 δ(AB,CD)=min(δ(A,CD),δ(B,CD))=2

  • δ ( A B , E ) = min ⁡ ( δ ( A , E ) , δ ( B , E ) ) = 3 \delta(AB,E)=\min(\delta(A,E),\delta(B,E))=3 δ(AB,E)=min(δ(A,E),δ(B,E))=3

δ \delta δCDE
AB23
CD3
  • 再合并ABCD,则
δ \delta δE
ABCD3

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/239294.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

cfa一级考生复习经验分享系列(六)

本人背景:本科经济学,有一定基础。现为某国企员工,每天大概率加班到7点多,复习时间有限。 准备材料 买了JC的网课(主要复习依据),然后下载一个potplayer视频播放器(神器,…

ACM32G1x3有那些优势?适用于那些产品上?

ACM32G1x3优势 • 320KB 程序Flash64KB SRAM,跑RTOS程序开发更加方便 • 从外挂Flash通过DMA搬运图片数据到PSRAM,无需打断程序运行 • 120MHz M33内核,处理性能佳 • 集成2路CAN接口,适合工控等需要CAN接口的场景 • QS…

[JS设计模式]Flyweight Pattern

Flyweight pattern 享元模式是一种结构化的设计模式,主要用于产生大量类似对象而内存又有限的场景。享元模式能节省内存。 假设一个国际化特大城市SZ;它有5个区,分别为nanshan、futian、luohu、baoan、longgang;每个区都有多个图…

代码随想录刷题题Day20

刷题的第二十天,希望自己能够不断坚持下去,迎来蜕变。😀😀😀 刷题语言:C Day20 任务 ● 理论基础 ● 77. 组合 1 回溯算法理论基础 1.1 回溯法 回溯法是一种搜索的方式,是递归的副产品&#x…

海外媒体发稿:雅虎全球发稿推广脱颖而出的10种方法-华媒舍

雅虎全球发稿是一项重要的推广手段,能够帮助企业和个人提升品牌知名度和曝光率。在众多的发稿中脱颖而出并不容易。本文将为您介绍10种让您的雅虎全球发稿在众多文章中脱颖而出的方法,帮助您取得更好的效果。 1. 深入研究目标受众 在撰写雅虎全球发稿前…

Python to_numeric函数参数解读与最佳实践!

更多资料获取 📚 个人网站:ipengtao.com Python中的to_numeric函数是pandas库提供的一个强大而灵活的工具,用于将数据转换为数字类型。本文将深入探讨to_numeric函数的各种参数和用法,通过丰富的示例代码帮助大家更全面地理解和运…

基于thinkphp+vue的大学生校园生活服务平台sb00r

大学生一体化服务平台可以提高大学生综合服务信息管理问题的解决效率,优化大学生综合服务信息处理流程,保证大学生综合服务信息数据的安全,它是一个非常可靠,非常安全的应用程序。 运行环境:phpstudy/wamp/xammp等 开发语言&#…

CAS机制

Java中提供了很多原子操作类来保证共享变量操作的原子性。这些原子操作的底层原理都是使用了CAS机制。在使用一门技术之前,了解这个技术的底层原理是非常重要的,所以本篇文章就先来讲讲什么是CAS机制,CAS机制存在的一些问题以及在Java中怎么使…

鸿蒙应用开发初体验 HelloWorld

9 月 25 日,华为常务董事、终端 BG CEO、智能汽车解决方案 BU 董事长余承东华为秋季全场景新品发布会上介绍了鸿蒙系统的最新进展:HarmonyOS 4 发布后,短短一个多月升级用户已经超过 6000 万,成为史上升级速度最快的 HarmonyOS 版…

硬件工程师桥——互动篇笔记

知识体系 无论是做硬件还是软件,都最好看看基础篇,软件到了一定程度,如果硬件懂一些才会走的更远基础篇的电路不建议在实际中使用基础篇建议从头到尾都看,前后都有关联提高篇讲EMC和高速电路的东西,属于硬件工程师进阶…

python异常之try/else分句

1 python异常之try/else分句 如果try语句代码块未发生异常,则执行else语句代码块,else需要放在except分句后面。 1.1 基本用法 用法 try:# try语句代码块# 执行时可能发生异常的代码块 except ExceptionType:# except语句代码块# 当发生指定类型的异…

利用淘宝获得商品详情 API:提升电商平台的用户体验

一、引言 随着电子商务的快速发展,电商平台之间的竞争日益激烈。为了在竞争中脱颖而出,电商平台需要不断提升用户体验,提高用户满意度和忠诚度。淘宝获得商品详情 API 的出现,为电商平台提供了一个重要的工具,可以帮助…

WebGL开发三维解剖学应用

开发基于 WebGL 的三维解剖学应用通常涉及以下步骤。这些步骤包括创建三维模型、整合交互性、优化性能等,希望对大家有所帮助。北京木奇移动技术有限公司,专业的软件外包开发公司,欢迎交流合作。 1.三维模型创建: 首先&#xff0…

智能优化算法应用:基于白冠鸡算法3D无线传感器网络(WSN)覆盖优化 - 附代码

智能优化算法应用:基于白冠鸡算法3D无线传感器网络(WSN)覆盖优化 - 附代码 文章目录 智能优化算法应用:基于白冠鸡算法3D无线传感器网络(WSN)覆盖优化 - 附代码1.无线传感网络节点模型2.覆盖数学模型及分析3.白冠鸡算法4.实验参数设定5.算法结果6.参考文…

vue proxy代理 和 Nginx 配置跨域

vue.config.js文件中配置的代理: devServer: {port: 9095,// open: true, // 配置项目在启动时自动在浏览器打开proxy: {/yh: { // /api是代理标识,一般是每个接口前的相同部分target: "http://192.168.5.58:8002", // 请求地址,一…

4.3【共享源】克隆实战开发之截屏(一)

一,Screen截屏介绍 Screen的截屏是指从源读取像素,然后复制到缓冲区。然后可以根据需要操纵缓冲区;它可以简单地写入文件,也可以在其他窗口或显示器中使用。 Screen API从源中读取像素,并将其复制到提供的缓冲区中以捕获截屏。缓冲区可以是pixmap或窗口缓冲区,但必须设…

众和策略:美股全线上涨 中概股大涨

当地时间12月21日,欧洲股市全线下跌,英国富时100指数、法国CAC40指数、德国DAX指数均小幅下跌。美国通胀降温,美股商场三大指数尾盘飙升,纳斯达克指数、标普500指数均涨逾1%,大型科技股多数上涨,特斯拉涨近…

机器人运动速度与接触力

当机器人以较快的速度移动时,其与周围环境的接触力可能会增加。这是因为机器人快速移动时,其与环境的相互作用时间较短,导致接触力的瞬间增大。 然而,具体的接触力大小还受到其他因素的影响,如机器人的负载、环境条件…

SoapUI、Jmeter、Postman三种接口测试工具的比较分析!

前段时间忙于接口测试,也看了几款接口测试工具,简单从几个角度做了个比较,拿出来与诸位分享一下。本文从多个方面对接口测试的三款常用工具进行比较分析,以便于在特定的情况下选择最合适的工具,或者使用自己编写的工具…

4_js函数的进阶与常用对象的使用

day04_js函数的进阶与常用对象的使用 1. 作用域 作用域:指的就是变量的有效范围 2. 什么是作用域链 作用域链:在访问变量的时候是按照就近原则 3. 简单的理解类和对象 3.1 对象的相关概念 从用户登录的角度理解为什么需要对象 我们为什么要使用对…