人工蜂群算法python_教程 | 用人工蜂群算法求解k-分区聚类问题

原标题:教程 | 用人工蜂群算法求解k-分区聚类问题

选自towarddatascience

作者:Pedro Buarque

参与:Pedro、刘晓坤

群体智能算法是一类受生物群体智能行为的启发而发展出来的算法,社会性动物例如蚂蚁、蜜蜂、鱼等,个体的简单、非直接目标指向的行为常常能在群体层面上涌现出惊人的高效实现目标的模式。本文介绍了如何使用人工蜂群算法(ABC)算法实现真实数据的聚类。

6936a2fbe7274a0bb58664aed19bc26c.jpeg

我之前的文章介绍了如何利用名为人工蜂群算法(ABC)的集群智能(SI)算法来解决现实世界的优化问题:https://medium.com/cesar-update/a-swarm-intelligence-approach-to-optimization-problems-using-the-artificial-bee-colony-abc-5d4c0302aaa4

这篇文章将会介绍如何处理真实数据、如何使用 ABC 算法实现聚类。在此之前,我们先了解一下聚类问题。

聚类问题

聚类问题是一类 NP-hard 问题,其基本思想是发现数据中的隐藏模式。聚类没有正式的定义,但它与元素分组的思想有关:通过分组我们可以区分元素为不同的组。

不同的算法族以不同的方式定义聚类问题。一种常见的经典聚类方法如下:它将问题简化为一个数学问题,即找到原始数据的一个 k 分区。

找到集合 S 的 k 分区等价于找到 S 的 k 个子集,其遵循以下两个规则:

1. 不同子集的交集等于空集。

2.k 个子集的并集为 S。

在分区聚类过程结束时,我们希望找到原始数据集的一组子集,使得一个实例只属于一个子集。具体如下图所示:

d6bc6bdf5ca20cfb3c718824105cc7e7.png

左边是原始数据,右边是 k=2 分区处理后的数据。

如何划分数据以达到上图所示的分区效果?聚类过程的输出是一组质心。质心是每个分组的代表实体,所以如果数据有 k 个分区,那么它有 k 个质心。

40a05217a4a368fb8eddec6a0b155e50.png

k=2 数据分区的质心演示示例。

质心也可理解为由数据定义的搜索空间上的点,由于每个质心定义了一个分组,每个数据点将被分配到距离它最近的质心。

人工蜂群算法的聚类应用

如何修改原始的 ABC 算法使其得以执行聚类任务?实际上,此处 ABC 算法没作任何改动。唯一要做的就是将聚类问题转化为优化问题。如何做到这一点?

一个明确定义的优化问题需要一个搜索空间:一组 d 维决策变量输入和一个目标函数。如果将人工集群中的每一个点(蜂)视为聚类问题的一个划分,那么每一个点可以代表一整组候选质心。如果对 d 维空间上的数据集执行 k 分区,那么每个点都将是一个 k·d 维向量。

上文定义了如何表示输入决策变量,接下来只需要弄清楚如何定义搜索空间的边界以及选用什么目标函数。

搜索空间边界的定义很容易,用 [0,1] 区间对整个数据集进行归一化,并将目标函数的值域定义为 0 到 1。麻烦的是如何定义目标函数。

分区聚类方法希望最大化两个不同组之间的距离,并最小化组内的距离。文献中提到了几个目标函数,但是最为人熟知的方法是所谓的平方误差和(Sum of Squared Errors,SSE)。

3a39776df09099146eab41d2cff9c327.png

平方误差和的公式。

这个公式是什么意思?平方误差和(SSE)是一种聚类度量指标,其思想非常简单。它是一个计算数据中每个实例到其最接近质心的平方距离的值。算法优化的目标是尽量减小这个值的大小。

可以使用之前的目标函数框架来实现平方误差和,具体如下:

@add_metaclass(ABCMeta)

classPartitionalClusteringObjectiveFunction(ObjectiveFunction):

def__init__(self, dim, n_clusters, data):

super(PartitionalClusteringObjectiveFunction, self)

.__init__( 'PartitionalClusteringObjectiveFunction', dim, 0.0, 1.0)

self.n_clusters = n_clusters

self.centroids = {}

self.data = data

defdecode(self, x):

centroids = x.reshape(self.n_clusters, self.dim)

self.centroids = dict(enumerate(centroids))

@abstractmethod

defevaluate(self, x):

pass

classSumOfSquaredErrors(PartitionalClusteringObjectiveFunction):

def__init__(self, dim, n_clusters, data):

super(SumOfSquaredErrors, self).__init__(dim, n_clusters, data)

self.name = 'SumOfSquaredErrors'

defevaluate(self, x):

self.decode(x)

clusters = {key: [] forkey inself.centroids.keys()}

forinstance inself.data:

distances = [np.linalg.norm(self.centroids[idx] - instance)

foridx inself.centroids]

clusters[np.argmin(distances)].append(instance)

sum_of_squared_errors = 0.0

foridx inself.centroids:

distances = [np.linalg.norm(self.centroids[idx] - instance)

forinstance inclusters[idx]]

sum_of_squared_errors += sum(np.power(distances, 2))

returnsum_of_squared_errors

处理真实数据

现在开始尝试处理一些真实的数据,并测试 ABC 算法处理聚类问题的能力。此处我们使用著名的 Iris 数据集进行测试。

初始的四维数据集包含了从三种植物身上提取得到的特征。为了便于可视化,此处只使用该数据集的两个维度。观察该数据集第二维和第四维之间的关系:

importmatplotlib.pyplot asplt

fromabc importABC

fromobjection_function importSumOfSquaredErrors

fromsklearn.datasets importload_iris

fromsklearn.preprocessing importMinMaxScaler

data = MinMaxScaler().fit_transform(load_iris()[ 'data'][:, [ 1, 3]])

plt.figure(figsize=( 9, 8))

plt.scatter(data[:, 0], data[:, 1], s= 50, edgecolor= 'w', alpha= 0.5)

plt.title( 'Original Data')

上述代码的输出结果如下:

6eba5b997ce9abad4d023df06682e581.png

原始数据分布。

由于使用这些数据作为基准进行测试,因此其最佳划分已知,它是由这三种花的原始分布给出的。我们可以用下面的 Python 代码可视化 Iris 数据集的原始优化分区:

colors = [ 'r', 'g', 'y']

target = load_iris()[ 'target']

plt.figure(figsize=( 9, 8))

forinstance, tgt inzip(data, target):

plt.scatter(instance[ 0], instance[ 1], s= 50,

edgecolor= 'w', alpha= 0.5, color=colors[tgt])

plt.title( 'Original Groups')

它显示了如下分布:

237b9acf8aae58d3c8149158c78ec045.png

数据集的初始划分。

由于已经知道这个样本数据的原始最优分区是什么,接下来的实验将测试 ABC 算法能否找到一个接近最优解的解决方案。使用平方误差和作为目标函数,并将分区数设置为 3。

由于随机初始化,生成的质心的顺序可能与类的顺序不匹配。因此在 ABC 算法的输出图像中,组的颜色可能会不匹配。不过这并不重要,因为人们更关心的是对应分组的外观。

objective_function = SumOfSquaredErrors(dim= 6, n_clusters= 3, data=data)

optimizer = ABC(obj_function=objective_function, colony_size= 30,

n_iter= 300, max_trials= 100)

optimizer.optimize()

defdecode_centroids(centroids, n_clusters, data):

returncentroids.reshape(n_clusters, data.shape[ 1])

centroids = dict(enumerate(decode_centroids(optimizer.optimal_solution.pos,

n_clusters= 3, data=data)))

defassign_centroid(centroids, point):

distances = [np.linalg.norm(point - centroids[idx]) foridx incentroids]

returnnp.argmin(distances)

custom_tgt = []

forinstance indata:

custom_tgt.append(assign_centroid(centroids, instance))

colors = [ 'r', 'g', 'y']

plt.figure(figsize=( 9, 8))

forinstance, tgt inzip(data, custom_tgt):

plt.scatter(instance[ 0], instance[ 1], s= 50, edgecolor= 'w',

alpha= 0.5, color=colors[tgt])

forcentroid incentroids:

plt.scatter(centroids[centroid][ 0], centroids[centroid][ 1],

color= 'k', marker= 'x', lw= 5, s= 500)

plt.title( 'Partitioned Data found by ABC')

代码的输出如下:

34d2d202f2b5801488561beccd4ee212.png

ABC 算法生成的分区

仔细观察原始分区和 ABC 算法生成的分区,可以看到 ABC 算法能够找到一个十分接近最优解的分区方法。这证明了用于聚类的 ABC 算法到底有多强大。还可以查看 ABC 算法的优化曲线来看看优化过程是如何进行的:

itr = range(len(optimizer.optimality_tracking))

val = optimizer.optimality_tracking

plt.figure(figsize=( 10, 9))

plt.plot(itr, val)

plt.title( 'Sum of Squared Errors')

plt.ylabel( 'Fitness')

plt.xlabel( 'Iteration')

3af72e1d8a906a6d743f670179d8939d.png

正如所料,ABC 算法能有效地最小化 SSE 目标函数。可以看到,集群智能拥有一些强大的机制来处理优化问题。只要能将现实世界的问题简化为优化问题,就能很好地利用这些算法。

参考文献:

A novel clustering approach: Artificial Bee Colony (ABC) algorithm—Dervis Karaboga, Celal Ozturk

A Clustering Approach Using Cooperative Artificial Bee Colony Algorithm—Wenping Zou, Yunlong Zhu, Hanning Chen, and Xin Sui

A Review on Artificial Bee Colony Algorithms and Their Applications to Data Clustering—Ajit Kumar , Dharmender Kumar , S. K. Jarial

A two-step artificial bee colony algorithm for clustering—Yugal Kumar, G. Sahoo

未来展望

本文通过实现人工蜂群算法简要介绍了集群智能,以及如何利用它来解决一些有趣的问题:例如优化实际函数、修改 ABC 算法解决聚类问题。

这些算法有很多应用,如图像分割、人工神经网络训练、数字图像处理和模式识别、蛋白质结构预测等等。还有一些其他强大的群体智能(SI)算法,如粒子群优化(PSO)和鱼群搜索(FSS)等,它们也是非常有名的技术,并且也有一些有趣的应用。

原文链接:https://towardsdatascience.com/a-modified-artificial-bee-colony-algorithm-to-solve-clustering-problems-fc0b69bd0788

本文为机器之心编译,转载请联系本公众号获得授权。返回搜狐,查看更多

责任编辑:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/571215.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

java遍历树_Java实现遍历N级树形目录结构

最近挺忙,一直在做项目,然后有个树形目录结构需要返回给前端,这里给大家说一下实现的思路。具体达到的效果类似:一级目录A:二级目录A:三级目录:四级目录:文件.txt二级目录B&#xff…

python_fullstack基础(十八)-并发编程

并发编程 一、进程 1、理论背景 ①操作系统背景 手工操作—穿孔卡片 原理:用户独占计算机,CPU等待手工操作,资源利用和CPU利用效率极低批处理—磁带处理、批处理系统 原理:主机与输入机之间增加磁带存储设备,使得计算机…

20165218 学习基础和C语言基础调查

个人技能及阅读心得 个人技能之绘画绘画是我从很小便开始接触的,从最初的简笔画到国画、素描、水粉,大约也学了七八年。但是到了高中之后,就逐渐放下了。 记得当初学素描时,老师的一句话让我记忆犹新,她说,…

java 执行机制_Java类的执行机制

在完成将class文件信息加载到JVM并产生Class对象后,就可执行Class对象的静态方法或实例化对象进行调用了。在源码编译阶段将源码编译为JVM字节码,JVM字节码是一种中间代码的方式,要由JVM在运行期对其进行解释并执行,这种方式成为字…

论如何入门地使用vscode

微软大法好啊 这货更像是个gedit 以下内容只适合Oiers使用 本文档只适合新手引导的阶段使用 下载 这个是链接 可见这东西是和Emacs一样跨系统的 不知道为什么下载速度贼快 配置 还记得我们用Emacs的时候配置那叫一个可怕 虽然使用vscode也要配置 不过我们在配置它的时候就比Ema…

springboot jpa 创建数据库以及rabbitMQ分模块扫描问题

在使用jpa过程中,如果没有在配置中加入自动创建实体对于的sql,则需要提前创建建表语句 spring.jpa.properties.hibernate.show_sqltrue spring.jpa.properties.hibernate.format_sqltrue spring.jpa.hibernate.ddl-autoupdate 建表语句需要注意的点:需要…

cpp_06_缺省构造_拷贝构造_拷贝赋值_初始化表

1 构造函数 1.1 构造函数可重载&#xff1a; 构造函数可以通过形参表的差别化形成重载关系 重载关系的构造函数&#xff0c;通过构造函数的实参类型进行匹配 使用缺省参数可以减少构造函数重载的数量 // consover.cpp 构造函数的重载 #include <iostream> using name…

mysql sumif条件求和_sumif与sumifs条件求和函数详解,小白到大神的必经之路

在日常工作中我们经常需要根据某些条件进行求和&#xff0c;今天就给大家介绍下&#xff0c;Excel中的条件求和函数sumif和sumifsSumif函数第一个参数&#xff1a;Range&#xff1a;条件区域&#xff0c;用于条件判断的单元格区域。第二个参数&#xff1a;Criteria&#xff1a;…

Thread.join(), CountDownLatch、CyclicBarrier和 Semaphore区别,联系及应用

在java 1.5中&#xff0c;提供了一些非常有用的辅助类来帮助我们进行并发编程&#xff0c;比如CountDownLatch&#xff0c;CyclicBarrier和Semaphore&#xff0c;今天我们就来学习一下这三个辅助类的用法&#xff0c; 由于Thread.join()也和这三个类有类似用法&#xff0c;我也…

string转short java_[Java基础]之 数据类型转换

数据类型转换存在的意义数据类型转换&#xff0c;在实际的应用开发中&#xff0c;常常会对不同类型的数字类型进行计算&#xff0c;所以就用到了数据转换。一方面&#xff0c;使用算术计算符对数字进行运算时&#xff0c;系统在适当的时候回进行自动转换&#xff1b;另一放方面…

IDEA建立Spring MVC Hello World 详细入门教程

引子&#xff0c;其实从.NET转Java已经有几个月时间了&#xff0c;项目也做了不少&#xff0c;但是很多配置都是根据公司模板或者网上教程比忽略画瓢&#xff0c;对其中最简单的配置和设置并不完全理解&#xff0c;依旧是小白用户。最近项目不忙&#xff0c;重新梳理了一下Spri…

2048小游戏代码解析 C语言版

2048小游戏&#xff0c;也算是风靡一时的益智游戏。其背后实现的逻辑比较简单&#xff0c;代码量不算多&#xff0c;而且趣味性强&#xff0c;适合作为有语言基础的童鞋来加强编程训练。本篇分析2048小游戏的C语言实现代码。 前言 游戏截图&#xff1a; 游戏实现原理&#xff1…

【递归与递推】青蛙过河

题目描述 有一条河&#xff0c;左边一个石墩(A区)上有编号为1&#xff0c;2&#xff0c;3&#xff0c;4&#xff0c;…&#xff0c;n的n只青蛙&#xff0c;河中有k个荷叶(C区)&#xff0c;还有h个石墩(D区)&#xff0c;右边有一个石墩(B区)&#xff0c;如下图2—5所示。n只青蛙…

python arp欺骗

使用python构造一个arp欺骗脚本 import os import sys from scapy.all import * import optparse def main():usage"usage:[-i interface] [-t IP to attack] [-g Gateway IP]"parseroptparse.OptionParser(usage)parser.add_option(-i,destinterface,helpselect int…

java对外sdk提供接口_Android SDK封装,对外提供接口

项目中需要把连接服务器的部分做成一个service并生成一个jar模块。其他产品就可通过这个包来快速的开发连接服务器的应用软件。做成一个service的优点是&#xff1a;1&#xff0e; 在后台运行&#xff0c;可以一直保持与服务器的连接2&#xff0e; 服务可以只对外提供接口&…

hdu3265一种错误的做法

题目链接 这是求面积并的题目&#xff0c;刚开始我的思路是将挖去的矩形的入边和出边覆盖效果颠倒&#xff0c; 即入边-1&#xff0c;出边1&#xff0c;后来调试到爆炸&#xff0c;发现这是错误的做法。。原因就是对最简单 的面积并问题没有搞清楚。刚开始接触扫描线的时候我就…

php截断上传,截断在文件包含和上传中的利用

截断大概可以在以下情况适用include(require)file_get_contentsfile_exists所有url中参数可以用%00控制0x01. 本地文件包含1.1 截断类型&#xff1a;php %00截断截断条件&#xff1a;php版本小于5.3.4 详情关注CVE-2006-7243php的magic_quotes_gpc为OFF状态漏洞文件lfi.php要in…

解决虚拟机安装64位系统“此主机支持 Intel VT-x,但 Intel VT-x 处于禁用状态”的问题...

环境说明&#xff1a;系统&#xff1a;Windows 8.1 简体中文专业版 虚拟机&#xff1a;VMware Workstation 11.0.0 报错&#xff1a;此主机支持 Intel VT-x&#xff0c;但 Intel VT-x 处于禁用状态。如图&#xff1a; 图片原文如下&#xff1a; 已将该…

#前端# 解决前端页面滑动不顺畅的问题

看情况有时候需要将body和html同时选择。转载于:https://www.cnblogs.com/tnt-33/p/8464370.html

php守护进程热更新,如何通过PHPStorm配置Hyperf热更新开发环境

通过 PHPStorm 配置热更新开发环境在开发 Hyperf/Swoole 这样的持久化应用时&#xff0c;每当应用代码发生了变更时&#xff0c;都需要重启应用使代码生效&#xff0c;尽管在开发 CLI 应用时这也是一个正确且合理地操作&#xff0c;因为我们开发过程中仍需要关注 stdout 输出的…