人工蜂群算法python_教程 | 用人工蜂群算法求解k-分区聚类问题

原标题:教程 | 用人工蜂群算法求解k-分区聚类问题

选自towarddatascience

作者:Pedro Buarque

参与:Pedro、刘晓坤

群体智能算法是一类受生物群体智能行为的启发而发展出来的算法,社会性动物例如蚂蚁、蜜蜂、鱼等,个体的简单、非直接目标指向的行为常常能在群体层面上涌现出惊人的高效实现目标的模式。本文介绍了如何使用人工蜂群算法(ABC)算法实现真实数据的聚类。

6936a2fbe7274a0bb58664aed19bc26c.jpeg

我之前的文章介绍了如何利用名为人工蜂群算法(ABC)的集群智能(SI)算法来解决现实世界的优化问题:https://medium.com/cesar-update/a-swarm-intelligence-approach-to-optimization-problems-using-the-artificial-bee-colony-abc-5d4c0302aaa4

这篇文章将会介绍如何处理真实数据、如何使用 ABC 算法实现聚类。在此之前,我们先了解一下聚类问题。

聚类问题

聚类问题是一类 NP-hard 问题,其基本思想是发现数据中的隐藏模式。聚类没有正式的定义,但它与元素分组的思想有关:通过分组我们可以区分元素为不同的组。

不同的算法族以不同的方式定义聚类问题。一种常见的经典聚类方法如下:它将问题简化为一个数学问题,即找到原始数据的一个 k 分区。

找到集合 S 的 k 分区等价于找到 S 的 k 个子集,其遵循以下两个规则:

1. 不同子集的交集等于空集。

2.k 个子集的并集为 S。

在分区聚类过程结束时,我们希望找到原始数据集的一组子集,使得一个实例只属于一个子集。具体如下图所示:

d6bc6bdf5ca20cfb3c718824105cc7e7.png

左边是原始数据,右边是 k=2 分区处理后的数据。

如何划分数据以达到上图所示的分区效果?聚类过程的输出是一组质心。质心是每个分组的代表实体,所以如果数据有 k 个分区,那么它有 k 个质心。

40a05217a4a368fb8eddec6a0b155e50.png

k=2 数据分区的质心演示示例。

质心也可理解为由数据定义的搜索空间上的点,由于每个质心定义了一个分组,每个数据点将被分配到距离它最近的质心。

人工蜂群算法的聚类应用

如何修改原始的 ABC 算法使其得以执行聚类任务?实际上,此处 ABC 算法没作任何改动。唯一要做的就是将聚类问题转化为优化问题。如何做到这一点?

一个明确定义的优化问题需要一个搜索空间:一组 d 维决策变量输入和一个目标函数。如果将人工集群中的每一个点(蜂)视为聚类问题的一个划分,那么每一个点可以代表一整组候选质心。如果对 d 维空间上的数据集执行 k 分区,那么每个点都将是一个 k·d 维向量。

上文定义了如何表示输入决策变量,接下来只需要弄清楚如何定义搜索空间的边界以及选用什么目标函数。

搜索空间边界的定义很容易,用 [0,1] 区间对整个数据集进行归一化,并将目标函数的值域定义为 0 到 1。麻烦的是如何定义目标函数。

分区聚类方法希望最大化两个不同组之间的距离,并最小化组内的距离。文献中提到了几个目标函数,但是最为人熟知的方法是所谓的平方误差和(Sum of Squared Errors,SSE)。

3a39776df09099146eab41d2cff9c327.png

平方误差和的公式。

这个公式是什么意思?平方误差和(SSE)是一种聚类度量指标,其思想非常简单。它是一个计算数据中每个实例到其最接近质心的平方距离的值。算法优化的目标是尽量减小这个值的大小。

可以使用之前的目标函数框架来实现平方误差和,具体如下:

@add_metaclass(ABCMeta)

classPartitionalClusteringObjectiveFunction(ObjectiveFunction):

def__init__(self, dim, n_clusters, data):

super(PartitionalClusteringObjectiveFunction, self)

.__init__( 'PartitionalClusteringObjectiveFunction', dim, 0.0, 1.0)

self.n_clusters = n_clusters

self.centroids = {}

self.data = data

defdecode(self, x):

centroids = x.reshape(self.n_clusters, self.dim)

self.centroids = dict(enumerate(centroids))

@abstractmethod

defevaluate(self, x):

pass

classSumOfSquaredErrors(PartitionalClusteringObjectiveFunction):

def__init__(self, dim, n_clusters, data):

super(SumOfSquaredErrors, self).__init__(dim, n_clusters, data)

self.name = 'SumOfSquaredErrors'

defevaluate(self, x):

self.decode(x)

clusters = {key: [] forkey inself.centroids.keys()}

forinstance inself.data:

distances = [np.linalg.norm(self.centroids[idx] - instance)

foridx inself.centroids]

clusters[np.argmin(distances)].append(instance)

sum_of_squared_errors = 0.0

foridx inself.centroids:

distances = [np.linalg.norm(self.centroids[idx] - instance)

forinstance inclusters[idx]]

sum_of_squared_errors += sum(np.power(distances, 2))

returnsum_of_squared_errors

处理真实数据

现在开始尝试处理一些真实的数据,并测试 ABC 算法处理聚类问题的能力。此处我们使用著名的 Iris 数据集进行测试。

初始的四维数据集包含了从三种植物身上提取得到的特征。为了便于可视化,此处只使用该数据集的两个维度。观察该数据集第二维和第四维之间的关系:

importmatplotlib.pyplot asplt

fromabc importABC

fromobjection_function importSumOfSquaredErrors

fromsklearn.datasets importload_iris

fromsklearn.preprocessing importMinMaxScaler

data = MinMaxScaler().fit_transform(load_iris()[ 'data'][:, [ 1, 3]])

plt.figure(figsize=( 9, 8))

plt.scatter(data[:, 0], data[:, 1], s= 50, edgecolor= 'w', alpha= 0.5)

plt.title( 'Original Data')

上述代码的输出结果如下:

6eba5b997ce9abad4d023df06682e581.png

原始数据分布。

由于使用这些数据作为基准进行测试,因此其最佳划分已知,它是由这三种花的原始分布给出的。我们可以用下面的 Python 代码可视化 Iris 数据集的原始优化分区:

colors = [ 'r', 'g', 'y']

target = load_iris()[ 'target']

plt.figure(figsize=( 9, 8))

forinstance, tgt inzip(data, target):

plt.scatter(instance[ 0], instance[ 1], s= 50,

edgecolor= 'w', alpha= 0.5, color=colors[tgt])

plt.title( 'Original Groups')

它显示了如下分布:

237b9acf8aae58d3c8149158c78ec045.png

数据集的初始划分。

由于已经知道这个样本数据的原始最优分区是什么,接下来的实验将测试 ABC 算法能否找到一个接近最优解的解决方案。使用平方误差和作为目标函数,并将分区数设置为 3。

由于随机初始化,生成的质心的顺序可能与类的顺序不匹配。因此在 ABC 算法的输出图像中,组的颜色可能会不匹配。不过这并不重要,因为人们更关心的是对应分组的外观。

objective_function = SumOfSquaredErrors(dim= 6, n_clusters= 3, data=data)

optimizer = ABC(obj_function=objective_function, colony_size= 30,

n_iter= 300, max_trials= 100)

optimizer.optimize()

defdecode_centroids(centroids, n_clusters, data):

returncentroids.reshape(n_clusters, data.shape[ 1])

centroids = dict(enumerate(decode_centroids(optimizer.optimal_solution.pos,

n_clusters= 3, data=data)))

defassign_centroid(centroids, point):

distances = [np.linalg.norm(point - centroids[idx]) foridx incentroids]

returnnp.argmin(distances)

custom_tgt = []

forinstance indata:

custom_tgt.append(assign_centroid(centroids, instance))

colors = [ 'r', 'g', 'y']

plt.figure(figsize=( 9, 8))

forinstance, tgt inzip(data, custom_tgt):

plt.scatter(instance[ 0], instance[ 1], s= 50, edgecolor= 'w',

alpha= 0.5, color=colors[tgt])

forcentroid incentroids:

plt.scatter(centroids[centroid][ 0], centroids[centroid][ 1],

color= 'k', marker= 'x', lw= 5, s= 500)

plt.title( 'Partitioned Data found by ABC')

代码的输出如下:

34d2d202f2b5801488561beccd4ee212.png

ABC 算法生成的分区

仔细观察原始分区和 ABC 算法生成的分区,可以看到 ABC 算法能够找到一个十分接近最优解的分区方法。这证明了用于聚类的 ABC 算法到底有多强大。还可以查看 ABC 算法的优化曲线来看看优化过程是如何进行的:

itr = range(len(optimizer.optimality_tracking))

val = optimizer.optimality_tracking

plt.figure(figsize=( 10, 9))

plt.plot(itr, val)

plt.title( 'Sum of Squared Errors')

plt.ylabel( 'Fitness')

plt.xlabel( 'Iteration')

3af72e1d8a906a6d743f670179d8939d.png

正如所料,ABC 算法能有效地最小化 SSE 目标函数。可以看到,集群智能拥有一些强大的机制来处理优化问题。只要能将现实世界的问题简化为优化问题,就能很好地利用这些算法。

参考文献:

A novel clustering approach: Artificial Bee Colony (ABC) algorithm—Dervis Karaboga, Celal Ozturk

A Clustering Approach Using Cooperative Artificial Bee Colony Algorithm—Wenping Zou, Yunlong Zhu, Hanning Chen, and Xin Sui

A Review on Artificial Bee Colony Algorithms and Their Applications to Data Clustering—Ajit Kumar , Dharmender Kumar , S. K. Jarial

A two-step artificial bee colony algorithm for clustering—Yugal Kumar, G. Sahoo

未来展望

本文通过实现人工蜂群算法简要介绍了集群智能,以及如何利用它来解决一些有趣的问题:例如优化实际函数、修改 ABC 算法解决聚类问题。

这些算法有很多应用,如图像分割、人工神经网络训练、数字图像处理和模式识别、蛋白质结构预测等等。还有一些其他强大的群体智能(SI)算法,如粒子群优化(PSO)和鱼群搜索(FSS)等,它们也是非常有名的技术,并且也有一些有趣的应用。

原文链接:https://towardsdatascience.com/a-modified-artificial-bee-colony-algorithm-to-solve-clustering-problems-fc0b69bd0788

本文为机器之心编译,转载请联系本公众号获得授权。返回搜狐,查看更多

责任编辑:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/571215.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

不定方程求解

题目链接:http://noi.openjudge.cn/ch0201/7650/总时间限制: 1000ms 内存限制: 65536kB描述给定正整数a,b,c。求不定方程 axbyc 关于未知数x和y的所有非负整数解组数。 输入一行,包含三个正整数a,b,c&#…

依赖注入底层反射原理_PHP基于反射机制实现自动依赖注入的方法详解_php技巧...

这篇文章主要介绍了PHP基于反射机制实现自动依赖注入的方法,结合实例形式分析了php使用反射实现自动依赖注入的步骤、原理与相关操作技巧,本文实例讲述了PHP基于反射机制实现自动依赖注入的方法。分享给大家供大家参考,我们一起来看看本篇文章吧!依赖注入…

Java学习(二)

Java中的基本类型数据(char、bool、byte、short、int、long、float、double)长度: 1 System.out.println(Byte.SIZE/8);2 System.out.println(Short.SIZE/8);3 System.out.println(Integer.SIZE/8);4 System…

java遍历树_Java实现遍历N级树形目录结构

最近挺忙,一直在做项目,然后有个树形目录结构需要返回给前端,这里给大家说一下实现的思路。具体达到的效果类似:一级目录A:二级目录A:三级目录:四级目录:文件.txt二级目录B&#xff…

【Linux】【Services】【SaaS】Docker+kubernetes(11. 构建复杂的高可用网络)

1. 简介 flannel在实战阶段貌似不能胜任在灾难恢复时候异地的网络,打算用openvswith试试转载于:https://www.cnblogs.com/demonzk/p/8404103.html

java输出变量_Java笔记1: 输入输出与变量常量

输入方法nextLine以Enter为结束符,也就是说 nextLine()方法返回的是输入回车之前的所有字符。可以获得空白的一串字符。import java.util.Scanner;public class Hello {public static void main(String[] args) {Scanner in new Scanner(System.in);// 从键盘接收数据System.o…

python_fullstack基础(十八)-并发编程

并发编程 一、进程 1、理论背景 ①操作系统背景 手工操作—穿孔卡片 原理:用户独占计算机,CPU等待手工操作,资源利用和CPU利用效率极低批处理—磁带处理、批处理系统 原理:主机与输入机之间增加磁带存储设备,使得计算机…

httplib java_httplib发布调用错误

我正在尝试自动化几个http请求,其中,我有以下从网络捕获的POST调用数据:方法:POST请求标头:POST /cgi-bin/auto_dispatch.cgi HTTP / 1.1主机:10.226.45.6连接:keep-alive内容长度:2…

20165218 学习基础和C语言基础调查

个人技能及阅读心得 个人技能之绘画绘画是我从很小便开始接触的,从最初的简笔画到国画、素描、水粉,大约也学了七八年。但是到了高中之后,就逐渐放下了。 记得当初学素描时,老师的一句话让我记忆犹新,她说,…

java 执行机制_Java类的执行机制

在完成将class文件信息加载到JVM并产生Class对象后,就可执行Class对象的静态方法或实例化对象进行调用了。在源码编译阶段将源码编译为JVM字节码,JVM字节码是一种中间代码的方式,要由JVM在运行期对其进行解释并执行,这种方式成为字…

ES6中object对象属性

//es5中定义对象属性要么字面量、要么点、要么[],变量与空格在这些方法中没有得到好的支持 /在es6中可以这么定义: let wwww; let obj1{w};//obj1{w:www},属性与值相同,简写 let obj2{[w]:b};//obj2{www:b},支持[]变量定义属性 let obj3{[ws]:c};//obj3{…

java csv 导出_java实现CSV文件输出

java实现CSV文件输出 收藏在很多时候我们都需要将一些数据集合以某种文件格式输出,其中CSV文件输出是一种比较常用的方式.下面是一个简单的实现CSV文件输出的代码,与大家共享.public static boolean createCsv(HttpServletResponse Response, QueryData qryData, String[][] co…

java resultset转json_ResultSet到JSON的最有效转换?

以下代码ResultSet使用JSONArray和将转换为JSON字符串JSONObject。import org.json.JSONArray;import org.json.JSONObject;import org.json.JSONException;import java.sql.SQLException;import java.sql.ResultSet;import java.sql.ResultSetMetaData;public class ResultSet…

论如何入门地使用vscode

微软大法好啊 这货更像是个gedit 以下内容只适合Oiers使用 本文档只适合新手引导的阶段使用 下载 这个是链接 可见这东西是和Emacs一样跨系统的 不知道为什么下载速度贼快 配置 还记得我们用Emacs的时候配置那叫一个可怕 虽然使用vscode也要配置 不过我们在配置它的时候就比Ema…

Java 面向对象的设计原则

一、 1、面向对象思想的核心: 封装、继承、多态。 2、面向对象编程的追求: 高内聚低耦合的解决方案; 代码的模块化设计; 3、什么是设计模式: 针对反复出现的问题的经典解决方案,是对特定条件下(…

java获取panel面板画笔_java - paintComponent()与paint()和JPanel vs Canvas在画笔类型的GUI中 - 堆栈内存溢出...

我一直试图找到一个解决方法,但没有找到一个,特别是对于getGraphics()方法:如何将图形添加到面板?你记得需要绘制的变量是什么,并在paintComponent()中使用它。 例如,您在其他问题中尝试做的事情如下&#…

springboot jpa 创建数据库以及rabbitMQ分模块扫描问题

在使用jpa过程中,如果没有在配置中加入自动创建实体对于的sql,则需要提前创建建表语句 spring.jpa.properties.hibernate.show_sqltrue spring.jpa.properties.hibernate.format_sqltrue spring.jpa.hibernate.ddl-autoupdate 建表语句需要注意的点:需要…

cpp_06_缺省构造_拷贝构造_拷贝赋值_初始化表

1 构造函数 1.1 构造函数可重载&#xff1a; 构造函数可以通过形参表的差别化形成重载关系 重载关系的构造函数&#xff0c;通过构造函数的实参类型进行匹配 使用缺省参数可以减少构造函数重载的数量 // consover.cpp 构造函数的重载 #include <iostream> using name…

mysql sumif条件求和_sumif与sumifs条件求和函数详解,小白到大神的必经之路

在日常工作中我们经常需要根据某些条件进行求和&#xff0c;今天就给大家介绍下&#xff0c;Excel中的条件求和函数sumif和sumifsSumif函数第一个参数&#xff1a;Range&#xff1a;条件区域&#xff0c;用于条件判断的单元格区域。第二个参数&#xff1a;Criteria&#xff1a;…

第二类斯特林数总结

第二类斯特林数总结 标签&#xff1a; 第二类斯特林数 最近做题的时候遇到了一些跟第二类斯特林数有关的东西&#xff0c;发现网上的资料不是很多&#xff0c;于是写一篇博客来总结一下。 第二类斯特林数 定义 第二类斯特林数\(S(n,m)\)表示的是把n个不同的小球放在m个相同的盒…