集成算法——Adaboost代码

集成算法是我们将不同的分类器组合起来，而这种组合结果就被称为集成方法或者是元算法。使用集成方法时会有多种形式：可以是不同算法的集成，也可以是同意算法在不同设置下的集成，还可以是数据集不同部分分配给不同分类器之后的集成。

两种形式：

bagging方法：从原始数据集选择S次后得到S个新数据集，之后将某个学习算法分别作用于数据集，就得到了S个分类器，在对新的数据集进行分类时，使用这些分类器进行分类，同时，选择分类器投票结果中最多的类别作为最后的分类结果。不同的分类器是通过串行训练而获得的，每个新分类器都根据已训练出来的分类器的性能来进行训练。分类器的权重是相等的。

例子：随机森林

boosting方法：使用多个分类器，它是通过集中关注被已有分类器错分的那些数据来获得新的分类器，boosting分类的结果是基于所有分类器的加权求和结果的，权重不相等，每个权重代表的是其对应分类器在上一轮迭代中的成功度。

例子：Adaboost，GBDT

AdaBoost的思想：

1.训练数据中的每一个样本，并赋予一个权重，初始化为相等值，这些权重构成了向量D

2.首先在训练数据上训练出一个弱分类器并计算该分类器的错误率，然后在同一个数据集上再次训练弱分类器。在分类器的第二次训练中，将会重新调整每个样本的权重。其中第一次分对的样本的权重会降低，而第一次分错的样本的权重会提高。

3.为了从所有弱分类器中得到最终的分类结果，Adaboost为每个分类器分配了一个权重alpha，这些alpha值是基于每个弱分类器的错误率进行的

4.计算出alpha值后，可以对权重向量D进行更新，以使得那些正确分类的样本的权重降低而错分样本的权重升高。

正确分类：

错误分类：

计算出D之后，在进行下一轮的迭代，会不断地重复训练和调整权重的过程，直到训练集错误率为0或者是弱分类器的数目达到用户的指定值为止。

代码实现：

import numpy as np
import matplotlib.pyplot as plt

def loadSimpData():dataMat=np.matrix([[1.,2.1],[1.5,1.6],[1.3,1.],[1.,1.],[2.,1.]])classLabels=[1.0 , 1.0 , -1.0 ,-1.0 ,1.0]return dataMat,classLabels

#数组过滤  将数据分成正好相反的两类
def  stumpClassify(dataMatrix,dimen,threshVal,threshIneq): # dimen特征值  threshVal 阈值  threshIneq 代表是lt或者是gtretArray=np.ones((np.shape(dataMatrix)[0],1))  #数组元素全部设置为1if threshIneq=='lt':retArray[dataMatrix[:,dimen]<= threshVal]=-1.0else:retArray[dataMatrix[:,dimen]> threshVal]=-1.0return retArray

构建单层决策树，找到错误率最小的特征和索引

def buildStump(dataArr, classLabels,D): #最佳基于数据的权重向量D来定义的dataMatrix=np.mat(dataArr);labelMat=np.mat(classLabels).Tm,n=np.shape(dataMatrix)numSteps=10.0;bestStump={};bestClasEst= np.mat(np.zeros((m,1)))  #bestStump空字典minError = float('inf');#初始化为无穷大，之后用于寻找可能的最小的错误率 for i in range(n):#所有的特征上进行遍历# 计算出最大的步长rangeMin = dataMatrix[:,i].min();rangeMax = dataMatrix[:,i].max()stepSize = (rangeMax-rangeMin)/numSteps #最大的步长#for j in range(-1,int(numSteps)+1):#大于或小于阈值的for inequal in ['lt','gt']:threshVal=(rangeMin+float(j)*stepSize) #阈值的计算predictedVals = stumpClassify(dataMatrix,i,threshVal,inequal)#计算加权错误率errArr= np.mat(np.ones((m,1)))errArr[predictedVals== labelMat]=0weightedError=D.T*errArr  print("split:dim %d, thresh %.2f ,thresh ineqal : %s, the weighted error is %.3f" % (i, threshVal,inequal,weightedError))# inequal 类型if weightedError<minError:minError = weightedErrorbestClasEat = predictedVals.copy()bestStump['dim']=ibestStump['thresh']=threshValbestStump['ineq']=inequalreturn bestStump,minError,bestClasEat

首先第一次训练计算出该分类器的错误率，然后继续训练，调整权重，

def adaBoostTrains(dataArr,classLabels,numIt=40):weakClassArr = []m=np.shape(dataArr)[0]D=np.mat(np.ones((m,1))/m)aggClassEst=np.mat(np.zeros((m,1)))for i in range (numIt):#利用buildStump()找到最佳的单层决策树bestStump,error,classEst = buildStump(dataArr,classLabels,D) #D 权重print("D: ",D.T)alpha=float(0.5*np.log((1.0-error)/max(error,1e-16)))  #alpha公式 1e是科学计数法   max确保在没有错误时除以0不会溢出bestStump['alpha']=alphaweakClassArr.append(bestStump)#  转化为listprint("classEst:", classEst.T) #特征#权重的分布expon=np.multiply(-1*alpha*np.mat(classLabels).T,classEst)#如果分对了，则同号，分错了异号，正好对应公式D=np.multiply(D,np.exp(expon))D=D/D.sum()   #  ai*yiaggClassEst += alpha*classEstprint("aggClassEst :" ,aggClassEst.T)#  sign将aggClassEst转化为[1,-1.....]的m*1的矩阵，再与特征矩阵对比，得出[1,0....]，其中1为错误分类，转置之后与ones相乘得到错误分类的个数aggErrors=np.multiply(np.sign(aggClassEst)!= np.mat(classLabels).T,np.ones((m,1)))#计算错误率errorRate = aggErrors.sum()/mprint("total error:",errorRate,"\n")if errorRate == 0.0 :breakreturn weakClassArr

dataArr,classLabels=loadSimpData()
weakClassArr,aggClassEst = adaBoostTrains(dataArr,classLabels)
print(weakClassArr)
print(aggClassEst)

输出结果：

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/466880.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

集成算法——Adaboost代码

相关文章

年终抽奖来了

DOS状态下可以安装Win XP

嵌入式 Linux下永久生效环境变量bashrc

回归分析——线性回归

编译原理（五）自底向上分析之算符优先分析法

做Android开发，要清楚init.rc里面的东西

abap常用系统变量

随机森林

Linux静态库和动态库的设计

操作excel

无法安装软件之解决其一 (windows installer服务篇)

决策树——CART和模型树

宏比较值，坑的一B

Linux下Samba服务器搭建

日志分析linux命令

C＃比较两时间大小

搞懂C++为什么难学，看这篇就够了！

2017 实习面试问题总结（阿里、头条、美团、cvte、乐视、华为）

SAP BC417 课程中文自学笔记

看图学源码之FutureTask