Python计算信息熵

 计算信息熵的公式:n是类别数,p(xi)是第i类的概率

H = -\sum_{i=1}^{n} p(x_{i})log_{2}p(x_{i})

假设数据集有m行,即m个样本,每一行最后一列为该样本的标签,计算数据集信息熵的代码如下:

from math import logdef calcShannonEnt(dataSet):numEntries = len(dataSet) # 样本数labelCounts = {} # 该数据集每个类别的频数for featVec in dataSet:  # 对每一行样本currentLabel = featVec[-1] # 该样本的标签if currentLabel not in labelCounts.keys(): labelCounts[currentLabel] = 0labelCounts[currentLabel] += 1 shannonEnt = 0.0for key in labelCounts:prob = float(labelCounts[key])/numEntries # 计算p(xi)shannonEnt -= prob * log(prob, 2)  # log base 2return shannonEnt

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/491794.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python绘制决策树的节点

import matplotlib.pyplot as pltdecisionNode dict(boxstyle"sawtooth", fc"0.8") # 决策节点的属性。boxstyle为文本框的类型,sawtooth是锯齿形,fc是边框线粗细 # 可以写为decisionNode{boxstyle:sawtooth,fc:0.8} leafNode dic…

IBM对话智能+未来:十年提升AI性能效率千倍?

来源:云科技时代140多前的1879年,爱迪生经过几千次试验发明了电灯;之后过了90年的1969年美国把人类送到了月球,1970年空中客车公司诞生。在1870年代,人类初次进入电力时代的时候,没有人能够想到有一天人类可…

【转】chrome浏览器的跨域设置——包括版本49前后两种设置

做前后分离的webapp开发的时候,出于一些原因往往需要将浏览器设置成支持跨域的模式,好在chrome浏览器就是支持可跨域的设置,网上也有很多chrome跨域设置教程。但是新版本的chrome浏览器提高了跨域设置的门槛,原来的方法不再适用了…

中国信通院:2019年Q1全球人工智能产业数据报告

来源:网络大数据近日,中国信息通信研究院数据研究中心发布了《全球人工智能产业数据报告(2019Q1)》。报告以中国信息通信研究院数研中心人工智能产业数据库为基础,从企业研究、投融资研究、论文等角度出发,结合产业发展热点&#…

数据库一对一,一对多,多对多关系

关联映射:一对多/多对一 存在最普遍的映射关系,简单来讲就如球员与球队的关系; 一对多:从球队角度来说一个球队拥有多个球员 即为一对多 多对一:从球员角度来说多个球员属于一个球队 即为多对一 数据表间一对多关系如下…

一文读懂产业互联网的前世今生!

来源:全球物联网观察摘要:随着云计算等企业级技术应用的发展普及, 产业互联网实际已经在各行各业展开实践。广度上不仅覆盖服务业、工业和农业,还从商业扩展到公益和政府,整个社会走向全面互联;深度上从营销…

反对量子计算的理由

来源: 悦智网量子计算如今十分流行。几乎每天都有新闻媒体发布相关新闻。其实人类研究量子计算已经长达几十年,却未得出任何实用的结果,大多数评论员都忘记或者掩饰了这一事实。 IBM指出量子计算机能够“使很多学科领域取得突破性进展&#x…

吴恩达《机器学习》学习笔记一——初识机器学习

吴恩达《机器学习》学习笔记一一、 什么是机器学习?二、监督学习三、无监督学习初识机器学习这是个人学习吴恩达《机器学习》课程的一些笔记,供自己和大家学习提升。第一篇内容较少,日后继续加油。课程链接:https://www.bilibili.…

院士张钹:AI奇迹短期难再现 深度学习技术潜力已近天花板

来源:软件定义世界(SDX)在Alphago与韩国围棋选手李世石对战获胜三年过后,一些迹象逐渐显现,张钹院士认为到了一个合适的时点,并接受了此次的专访。张钹,计算机科学与技术专家,俄罗斯…

吴恩达《机器学习》学习笔记二——单变量线性回归

吴恩达《机器学习》学习笔记二——单变量线性回归一、 模型描述二、 代价函数1.代价函数和目标函数的引出2.代价函数的理解(单变量)3.代价函数的理解(两个参数)三、 梯度下降——求解最优参数1.梯度下降的步骤2.梯度下降的数学表达…

吴恩达《机器学习》学习笔记三——多变量线性回归

吴恩达《机器学习》学习笔记三——多变量线性回归一、 多元线性回归问题介绍1.一些定义2.假设函数二、 多元梯度下降法1. 梯度下降法实用技巧:特征缩放2. 梯度下降法的学习率三、 特征选择与多项式回归四、 正规方程法1. 一些定义2. 正规方程解的公式3. 梯度下降法和…

五大核心构成的AIoT,正在遭遇三大挑战,两条突破口外还有什么?

来源:物联网智库随着IoT与AI逐步走向融合,AIoT正将以全新的方式改变人们的生活。一、新业务需求近年来,物联网呈现突飞猛进的发展态势。根据中商情报网的数据,2018年全球物联网设备已经达到70亿台;到2020年&#xff0c…

机器学习中防止过拟合的方法总结

来自机器学习成长之路公众号 在对模型进行训练时,有可能遇到训练数据不够,即训练数据无法对整个数据的分布进行估计的时候,或者在对模型进行过度训练(overtraining)时,常常会导致模型的过拟合(…

吴恩达《机器学习》学习笔记四——单变量线性回归(梯度下降法)代码

吴恩达《机器学习》学习笔记四——单变量线性回归(梯度下降法)代码一、问题介绍二、解决过程及代码讲解三、函数解释1. pandas.read_csv()函数2. DataFrame.head()函数3. Dataframe.insert()函数课程链接: https://www.bilibili.com/video/BV…

从IoT World 2019看全球IoT九大发展趋势

来源:全球物联网观察美国时间5月14日,IoT World2019在美国硅谷圣克拉拉会议中心举行,今年的主题是“工业与IOT的交互”,从大会主题演讲内容和现场产品展示来看,随着5G的商用和人工智能技术的大面积落地,IoT…

美国一箭投放60颗卫星 马斯克组互联网“星链”

来源:新华网美国太空探索公司当地时间23日晚在美国佛罗里达州一处空军基地发射火箭,将60颗小卫星送入近地轨道。这标志着企业家埃隆马斯克组建互联网卫星群的“星链”项目迈出实质性一步,抢在电子商务巨头亚马逊公司创始人杰夫贝索斯的“柯伊…

吴恩达《机器学习》学习笔记五——逻辑回归

吴恩达《机器学习》学习笔记五——逻辑回归一、 分类(classification)1.定义2.阈值二、 逻辑(logistic)回归假设函数1.假设的表达式2.假设表达式的意义3.决策界限三、 代价函数1.平方误差函数的问题2.logistic回归的代价函数四、梯…

协方差与相关系数

定义: 协方差用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。 期望值分别为E[X]与E[Y]的两个实随机变量X与Y之间的协方差Cov(X,Y)定义为: 如果两个变量的变化趋势一致,也就是说如果其中一…

吴恩达《机器学习》学习笔记六——过拟合与正则化

吴恩达《机器学习》学习笔记六——过拟合与正则化一、 过拟合问题1.线性回归过拟合问题2.逻辑回归过拟合问题3.过拟合的解决二、 正则化后的代价函数1.正则化思想2.实际使用的正则化三、 正则化的线性回归1.梯度下降的情况2.正规方程的情况四、 正则化的逻辑回归1.梯度下降的情…

5G时代,智能工厂迎来4大改变!

来源:亿欧网作为新一代移动通信技术,5G技术切合了传统制造企业智能制造转型对无线网络的应用需求,能满足工业环境下设备互联和远程交互应用需求。在物联网、工业自动化控制、物流追踪、工业AR、云化机器人等工业应用领域,5G技术起…