技术特征:
1.一种基于粒子群位置更新思想灰狼优化算法的k-means文本分类方法,其特征在于:包括以下步骤:
s1:对文本数据进行预处理,得到预处理后文本数据;
s2:采用余弦角度为相似性度量,分别计算预处理后文本数据向量中的每一个数据对象到每一个初始灰狼个体的初始聚类中心点间的距离,并按相似度最接近的原则,分别将预处理文本数据中的数据对象分配到对应的k个类簇中,直到所有的数据对象分配完毕,形成k个类簇;再计算下一个灰狼个体的数据分配结果,直到灰狼种群中所有的灰狼个体都计算完毕,得到n种初步文本聚类结果;
s3:分别计算每一个灰狼个体到数据中心点间的距离之和,分别得到了n个灰狼个体的适应度评估函数值;
s4:对n个适应度评估函数值进行按序排列,选出适应度评估函数值最小的前三只狼作为α狼,β狼,δ狼;并根据α狼,β狼,δ狼三只狼的位置,计算灰狼种群中其他灰狼个体到这三只狼的距离,并计算其余灰狼个体位置更新的中间变量的值;s5:将带有粒子群位置更新思想的所有灰狼个体进行位置更新;
s6:判断粒子群位置更新思想改进的灰狼优化算法的k-means聚类算法是否达到最大迭代次数,如果否,则执行步骤2;如果是,输出α狼的适应度值及其位置xα,根据xα聚类中心得到的最终文本数据分配结果。
2.根据权利要求1所述的一种基于粒子群位置更新思想灰狼优化算法的k-means文本分类方法,其特征还在于:所述文本数据进行预处理步骤如下:
s1:采用分词软件划分反映完整文本句意的最小单位的词组;
s2:筛选无意义词组;
s3:采用向量空间模型进行数学建模,对分词后的本文数据采用词频统计进行分词权重计算,提取文本数据中的关键词;
s4:使用word2vec模型进行词的向量化,用向量化之后的文本数据向量作为聚类的数据输入。
3.根据权利要求1所述的一种基于粒子群位置更新思想灰狼优化算法的k-means文本分类方法,其特征还在于:所述余弦角度作为相似性度量公式如下:
其中xi(i=1,2,3...,n)表述数据对象向量,xj(j=1,2,3,...,n)表示中心点向量。
4.根据权利要求1所述的一种基于粒子群位置更新思想灰狼优化算法的k-means文本分类方法,其特征还在于:适应度评估函数值公式如公式如下:
其中,k代表聚类个数。
5.根据权利要求1所述的一种基于粒子群位置更新思想灰狼优化算法的k-means文本分类方法,其特征还在于:所述灰狼个体进行位置更新根据如下公式进行:
其中灰狼位置更新速度通过如下公式确定:
其中,w称为惯性因子,r7,r8,r9是属于[0,1]间的随机数,分别表示控制种群中其余狼与三只头狼之间距离的参数,范围为在[0,2]之间;分别表示位置更新后的灰狼个体位置;代表当前灰狼的位置。