python实现决策树数据直接赋值导入_Python3.0 实现决策树算法的流程

决策树的一般流程

检测数据集中的每个子项是否属于同一个分类

if so return 类标签

Else

寻找划分数据集的最好特征

划分数据集

创建分支节点

from math import log

import operator

#生成样本数据集

def createDataSet():

dataSet = [[1,1,'yes'],

[1,1,'yes'],

[1,0,'no'],

[0,1,'no'],

[0,1,'no']]

labels = ['no surfacing','flipper']

return dataSet,labels

# 计算香农熵香农大神必须要膜拜啊，信息界的根目录人物啊

# no surfacing 指的是不浮出水面能否生存 1 标识是 0 指的是否

# flipper 指的是是否有脚

# yes no指的是否是鱼类

def calcShannonEnt(dataSet):

numEntries = len(dataSet) # 用上面的createDataSet dataSet 这个值就是5

#定义标签字典

labelCounts = {}

# 为所有可能的分类创建字典

for featVec in dataSet:

currentLabel = featVec[-1] #这个-1指的是去取最后一个维度对应数据dataSet 这里取的是yes和no

if currentLabel not in labelCounts.keys():

# 如果当前分类标签不在标签字典中

labelCounts[currentLabel] = 0

# 其他情况分类标签分类加1

labelCounts[currentLabel] += 1

#定义香农熵以2为底数求对数

shannonEnt = 0.0

for key in labelCounts:

#计算 yes 或者No 出现的概率

pro = float(labelCounts[key])/numEntries

# 计算香农熵

shannonEnt -= pro*log(pro,2)

return shannonEnt

#dataSet是待划分的数据集，划分数据集的特征 axis 特征的返回值value

#最后是创建了一个新的列表对象

def splitDataSet(dataSet, axis , value):

# 创建新list对象

retDataSet = []

for featVec in dataSet:

if featVec[axis] == value:

reducedFeatVec = featVec[:axis]

reducedFeatVec.extend(featVec[axis+1:])

retDataSet.append(reducedFeatVec)

return retDataSet

# 选择最好的特征值进行数据集划分

def chooseBestFeatureToSplit(dataSet):

# len(dataSet[0])是计算这一行有多少列，即有多少个特征值

numFeatures = len(dataSet[0])-1 # -1 是最后一个特征值就不要记录在内了，算baseEntrop的时候已经算了最后一个特征值yes no

baseEntropy = calcShannonEnt(dataSet)

bestInfoGain = 0.0

bestFeature = -1

for i in range(numFeatures):

#创建唯一的分类标签列表也就是说提取dataSet每一行第i个值就提取dat

featList = [example[i] for example in dataSet]

# 取出有几种特征值

uniqueVals = set(featList)

newEntropy = 0.0

for value in uniqueVals:

#创建特征值的子数据集

subDataSet = splitDataSet(dataSet,i, value)

#计算该特征值数据对总数在数据对总数出现的概率

pro = len(subDataSet)/float(len(dataSet))

#计算分割出来的子集香农熵

newEntropy += pro*calcShannonEnt(subDataSet)

#计算信息增益得到最好的特征值这个理论是这样的g(D,A) = H(D)-H(D/A)

infoGain = baseEntropy-newEntropy

#取出最大的信息增益，此时特征值最大

if(infoGain >bestInfoGain):

bestInfoGain = infoGain

bestFeature = i

return bestFeature

'''

#构建决策树是根据特征值的消耗来计算的，如果后面的特征值已经全部用完了

但是还没有分出结果，这个时候就需要使用多数表决方式计算节点分类

最后返回最大的分类

'''

def majorityCnt(classList):

# 分类的字典

classCount = {}

for vote in range(classList):

#如果不在分类字典中

if vote not in classCount.keys(): classCount[vote] = 0

classCount[vote] += 1

# 根据出现的次数大到小排序

sortedClassCount = sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)

return sortedClassCount[0][0]

#创建决策树

def createTree(dataSet, labels):

# 获取数据样本每组最后一组的特征值这里是yes,no

classList = [example[-1] for example in dataSet]

# 如果说这个classList 全部都是 yes 或者全部是no 那肯定子返回yes 或者no

if(classList.count(classList[0]) == len(classList)):

return classList[0]

#如果遍历完所有的特征返回出现次数最多的

#是用消耗特征值的方式进行构造决策树的，每次会消掉一个特征值

if len(dataSet[0]) == 1:

return majorityCnt(classList)

#选择最好的特征值

bestFeat = chooseBestFeatureToSplit(dataSet)

bestFeatLabel = labels[bestFeat]

myTree = {bestFeatLabel:{}}

# 删除labels中的一特征值

del(labels[bestFeat])

#找到特征值那一列

featValues = [example[bestFeat] for example in dataSet]

uniqueVals = set(featValues)

for value in uniqueVals:

# labels列表的赋值

subLabels = labels[:]

myTree[bestFeatLabel][value]=createTree(splitDataSet(dataSet,bestFeat,value),subLabels)

return myTree

dataSet,lables = createDataSet()

shannonEnt= calcShannonEnt(dataSet)

my = createTree(dataSet,lables)

print(my)

总结

以上所述是小编给大家介绍的Python3.0 实现决策树算法的流程,希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对我们网站的支持！

如果你觉得本文对你有帮助，欢迎转载，烦请注明出处，谢谢！

本文标题: Python3.0 实现决策树算法的流程

本文地址: http://www.cppcns.com/jiaoben/python/267738.html

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/551643.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

python实现决策树数据直接赋值导入_Python3.0 实现决策树算法的流程

相关文章

linux oracle em使用,Linux平台下启动oracle 11g EM控制台

源码里没有configure_深入源码理解.NET Core中Startup的注册及运行

天龙源码框架分析_天龙八部源码描述【转】

oracle查询慢怎么优化,Oracle查询优化-怎样建立索引优化下面的查询语句啊

复试情报准备

chrome切换前端模式_Chrome调试工具developer tool技巧 - 轩枫阁

oracle创建索引01652,建立数据表快照导致ora-01652异常

linux上安装python2.6.9_在Linux CentOS 6.6上安装Python 2.7.9

用python批量下载网络图片_python 批量下载网页里的图片

php中cnum函数,PHP vprintf() 函数

alter table add column多个字段_利用Python将多个excel合并到一个文件中

单链表操作实现getelem_c语言实现--带头结点单链表操作

php ouput buffer,Redis配置详解-客户端缓冲区 output buffer

python布尔测试_Python布尔函数：用真值优化代码

结构体中vector自动为0_面试题：你是如何选择顺序存储数据结构的？

python 公开课_python公开课视频（11~20）

oracle 随机排列,oracle的随机排序

c# 低功耗蓝牙_c# - 如何使用C＃手动绑定到WinForm中的蓝牙低能耗设备？ - 堆栈内存溢出...

python字典求平均值_Python - 字典中各个键的每个值的均值

数字填图问题matlab上机实验报告,数学建模实验报告数字填图问题