怎么通俗易懂地解释贝叶斯网络和它的应用?

作者:小杰
链接:https://www.zhihu.com/question/28006799/answer/38996563
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

英语原文:norsys.com/tutorials/ne

以下内容摘录自www.norsys.com,根据实例内容意译译文。

贝叶斯网络应用实例一:胸部疾病诊所(Chest Clinic)

假想你是Los Angeles一名新毕业的医生,专攻肺部疾病。你决定建立一个胸部疾病诊所,主治肺病及相关疾病。大学课本已经中告诉你了肺癌、肺结核和支气管炎的发生比率以及这些疾病典型的临床症状、病因等,于是你就可以根据课本里的理论知识建立自己的Bayes网。如根据如下数据信息:

  • 美国有30%的人吸烟.
  • 每10万人中就就有70人患有肺癌.
  • 每10万人中就就有10人患有肺结核.
  • 每10万人中就就有800人患有支气管炎.
  • 10%人存在呼吸困难症状, 大部分人是哮喘、支气管炎和其他非肺结核、非肺癌性疾病引起.

根据上面的数据可以建立如下BN模型:

<img src="https://pic2.zhimg.com/50/21a569894683edbbcfcf39b0ecb46e99_hd.jpg" data-rawwidth="500" data-rawheight="297" class="origin_image zh-lightbox-thumb" width="500" data-original="https://pic2.zhimg.com/21a569894683edbbcfcf39b0ecb46e99_r.jpg">

这样的一个BN模型对你意义不大,因为它没有用到来你诊所病人的案例数据,不能反映真实病人的情况。当诊所诊治了数千病人后,会发现课本中所描述的北美的情况与实际诊所数据显示的情况是完全不同的,实际诊所数据显示:

  • 50%的病人吸烟.
  • 1%患有肺结核.
  • 5.5% 得了肺癌.
  • 45% 患有不同程度支气管炎.
    将这些新数据输入到BN模型中,才真正的获得了对你有意义的实用BN模型:
    <img src="https://pic2.zhimg.com/50/0ef323c753f7a2a8b3f37a2134ab2319_hd.jpg" data-rawwidth="500" data-rawheight="295" class="origin_image zh-lightbox-thumb" width="500" data-original="https://pic2.zhimg.com/0ef323c753f7a2a8b3f37a2134ab2319_r.jpg">
    现在,看看如何在日常诊断中用该BN模型。
  • 首先,应该注意到,上述模型反映了一个来诊所求医的新患者,为诊断之前我们没有这个患者的任何信息。而当我们向患者咨询信息时,BN网中的概率就会自动调整,这就是贝叶斯推理最完美、强大之处。贝叶斯网络最强大之处在于从每个阶段结果所获得的概率都是数学与科学的反映,换句话说,假设我们了解了患者的足够信息,根据这些信息获得统计知识,网络就会告诉我们合理的推断。

    现在看看如何增加个别病人信息调节概率。一个女病人进入诊所,我们开始和她谈论。她告诉我们她呼吸困难。我们将这个信息输入到网络。我们相信病人的信息,认为其存在100%呼吸困难。
    <img src="https://pic1.zhimg.com/50/cbb64ffb6b65e847a420260f4ea93604_hd.jpg" data-rawwidth="500" data-rawheight="295" class="origin_image zh-lightbox-thumb" width="500" data-original="https://pic1.zhimg.com/cbb64ffb6b65e847a420260f4ea93604_r.jpg">可以观察到,一旦病人有呼吸困难症状,三种疾病的概率都增大了,因为这些疾病都有呼吸困难的症状。我们的病人存在这样的症状,某种程度上我们会推断这三种疾病可能性比较大,也增加了我们患者有严重疾病认识的信念。
  • 仔细看看推断的过程:

    1. 明显增大的是支气管炎,从 45% 到 83.4%. 为什么会有如此大的增长呢?因为支气管炎病比癌症和肺结核更常见. 只要我们相信患者有严重的肺部疾病,那最支气管炎的可能性会更大些。
    2. 病人是抽烟者的几率也会随之增大,从50% 到63.4%.
    3. 近期访问过亚洲的几率也会增大: 从1% 到1.03%, 显然是不重要的.
    4. X光照片不正常的几率也会上涨,从11% 到16%.

    知道现在我们还无法确认什么疾病困扰着我们的这个女患者,我们目前比较相信她患有支气管炎的可能性很大,但是,我们应该获得更多信息来确定我们的判断,如果我们现在就主观定了病症,她可能得的是癌症,那我们就是一个烂医生。这就需要更多信息来做最后的决定。

    因此,我们按照流程依此问她一些问题,如她最近是不是去过亚洲国家,吃惊的是她回答了“是”。现在获得的信息就影响了BN模型。

    <img src="https://pic2.zhimg.com/50/d57be3a397a169b15e420da0f47a6729_hd.jpg" data-rawwidth="500" data-rawheight="295" class="origin_image zh-lightbox-thumb" width="500" data-original="https://pic2.zhimg.com/d57be3a397a169b15e420da0f47a6729_r.jpg">
  • 患肺结核的几率显然增大,从 2%到 9%. 而患有癌症、支气管炎以及该患者是吸烟患者的几率都有所减少。为什么呢?因为此时呼吸困难的原因相对更倾向于肺结核。

    继续问患者一些问题,假设患者是个吸烟者,则网络变为
    <img src="https://pic2.zhimg.com/50/a729b982b5dede08862a9101928dc5d5_hd.jpg" data-rawwidth="500" data-rawheight="295" class="origin_image zh-lightbox-thumb" width="500" data-original="https://pic2.zhimg.com/a729b982b5dede08862a9101928dc5d5_r.jpg">
    此时注意到最好的假设仍然是认为患者患有支气管炎。为了确认我们要求她做一个X光透视,结果显示其正常。结果如下:
    <img src="https://pic2.zhimg.com/50/eb1c17e85f7f4d4f1ac3d811ef1a9501_hd.jpg" data-rawwidth="500" data-rawheight="296" class="origin_image zh-lightbox-thumb" width="500" data-original="https://pic2.zhimg.com/eb1c17e85f7f4d4f1ac3d811ef1a9501_r.jpg">
  • 这就更加肯定我们的推断她患有支气管炎。

  • 如果X光显示不正常的话,则结果将有很大不同:

    <img src="https://pic1.zhimg.com/50/4f79a2b89c9113dfbc3331862639c17c_hd.jpg" data-rawwidth="500" data-rawheight="296" class="origin_image zh-lightbox-thumb" width="500" data-original="https://pic1.zhimg.com/4f79a2b89c9113dfbc3331862639c17c_r.jpg">

    Note the big difference. TB or Lung Cancer has shot up enormously in probability. Bronchitis is still the most probable of the three separate illnesses, but it is less than the combination hypothesis of TB or Lung Cancer. So, we would then decide to perform further tests, order blood tests, lung tissue biopsies, and so forth. Our current Bayes net does not cover those tests, but it would be easy to extend it by simply adding extra nodes as we acquire new statistics for those diagnostic procedures. And we do not need to throw away any part of the previous net. This is another powerful feature of Bayes nets. They are easily extended (or reduced, simplified) to suit your changing needs and your changing knowledge.


    Summary


    In this section we learned that a Bayesian network is a mathematically rigorous way to model a world, one which is flexible and adaptable to whatever degree of knowledge you have, and one which is computationally efficient.

    注意最大的区别。结核病或肺癌增加的概率极大。支气管炎仍然是三个独立的疾病中最可能的一个,但它小于"结核或肺癌"这一组合的假设。所以,我们将决定进行进一步测试,血液测试,肺组织活检,等等。我们当前的贝叶斯网不包括这些测试,但它很容易扩展,只需添加额外的节点作为我们获得新的统计数据的诊断程序。我们不需要扔掉以前的任何部分。这是贝叶斯网的另一个强大的功能。他们很容易扩展(或减少,简化),以适应不断变化的需求和变化的知识。


    总结


    在本节中,我们了解到,贝叶斯网络是一个用严格的数学方法来模拟一个世界的方法,是灵活的,适应于任何你拥有的知识程度的方法,同时也是计算效率的方法。

    本文引用地址:http://blog.sciencenet.cn/blog-82650-255141.html 此文来自科学网邱士利博客


    最后说下,这篇文章用到了一个叫做netica的软件,我无聊将它破解掉了,去除了一些限制,各位有需要的可以在这里下载

    链接: 百度云 请输入提取密码 密码: 1qav

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/387367.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SVM分类算法的基本理论问题

1.引言   随着网络技术的飞速发展和普及,进入了信息大爆炸的时代。信息无处不在,给我们的学习生活带来了诸多便捷,由于堪称海量的信息量,我们从中获取有用的信息变得困难,解决这一难题就是要对这些大量的信息进行分…

决策树案例理解

小王是一家著名高尔夫俱乐部的经理。但是他被雇员数量问题搞得心情十分不好。某些天好像所有人都來玩高尔夫,以至于所有员工都忙的团团转还是应付不过来,而有些天不知道什么原因却一个人也不来,俱乐部为雇员数量浪费了不少资金。 小王的目的是…

剑指offer-反转链表

反转链表 一、题目描述 输入一个链表,反转链表后,输出新链表的表头。 (看过答案和测试之后,题目隐藏条件是要求链表是不带头结点的) 二、题目思路 就是用三个指针,head、pre、next,head之前都是…

从决策树学习谈到贝叶斯分类算法、EM、HMM

引言 最近在面试中(点击查看:我的个人简历,求职意向,择司标准),除了基础 & 算法 & 项目之外,经常被问到或被要求介绍和描述下自己所知道的几种分类或聚类算法(当然,这完全不代表你将来的面试中会遇…

计算机网络与协议

计算机网络: TCP/IP中只要是能够设定IP地址的计算机就成为主机 网络按其规模可分为: WAN(广域网):覆盖多个远距离区域的远程网络 MAN(城域网):比广域网小一级,连接整个城…

对线性回归、逻辑回归、各种回归的概念学习

回归问题的条件/前提: 1) 收集的数据 2) 假设的模型,即一个函数,这个函数里含有未知的参数,通过学习,可以估计出参数。然后利用这个模型去预测/分类新的数据。 1. 线性回归 假设 特征 和 结果 都…

XGBoost入门及实战

kaggle比赛必备算法XGBoost入门及实战 xgboost一直在kaggle竞赛江湖里被传为神器,它在对结构化数据的应用占据主导地位,是目前开源的最快最好的工具包,与常见的工具包算法相比速度提高了10倍以上! XGBoost is an implementation o…

几个常用算法的适应场景及其优缺点

机器学习算法太多了,分类、回归、聚类、推荐、图像识别领域等等,要想找到一个合适算法真的不容易,所以在实际应用中,我们一般都是采用启发式学习方式来实验。通常最开始我们都会选择大家普遍认同的算法,诸如SVM&#x…

EM算法 案例量则

例子一:理论: 简版:猜(E-step),反思(M-step),重复; 啰嗦版: 你知道一些东西(观察的到的数据), 你不知道一些东西(观察不到…

C#编写TensorFlow人工智能应用 TensorFlowSharp

TensorFlowSharp入门使用C#编写TensorFlow人工智能应用学习。 TensorFlow简单介绍 TensorFlow 是谷歌的第二代机器学习系统,按照谷歌所说,在某些基准测试中,TensorFlow的表现比第一代的DistBelief快了2倍。 TensorFlow 内建深度学习的扩展支持…

马尔可夫链 (Markov Chain)是什么鬼

作者:红猴子链接:https://www.zhihu.com/question/26665048/answer/157852228来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。马尔可夫链 (Markov Chain)是什么鬼 它是随机…

主题模型-LDA浅析

个性化推荐、社交网络、广告预测等各个领域的workshop上都提到LDA模型,感觉这个模型的应用挺广泛的,会后抽时间了解了一下LDA,做一下总结: (一)LDA作用 传统判断两个文档相似性的方法是通过查看两个文档共…

dorado-SplitSpanel控件

1.这是一个界面布局控件 2.分为SideControl边区域和MainControl主区域 3.常用属性 3.1 collapsed:打开页面时,边区域是否显示 3.2 position:边区域占总的大小 转载于:https://www.cnblogs.com/ergougougou/p/10438752.html

CAFFE怎样跑起来

0、参考文献 [1]caffe官网《Training LeNet on MNIST with Caffe》; [2]薛开宇《读书笔记4学习搭建自己的网络MNIST在caffe上进行训练与学习》([1]的翻译版,同时还有作者的一些注解,很赞); 1、*.sh文件如何执行? ①方…

运行caffe自带的两个简单例子

为了程序的简洁,在caffe中是不带练习数据的,因此需要自己去下载。但在caffe根目录下的data文件夹里,作者已经为我们编写好了下载数据的脚本文件,我们只需要联网,运行这些脚本文件就行了。 注意:在caffe中运…

运行caffe自带的mnist实例详细教

为了程序的简洁,在caffe中是不带练习数据的,因此需要自己去下载。但在caffe根目录下的data文件夹里,作者已经为我们编写好了下载数据的脚本文件,我们只需要联网,运行这些脚本文件就行了。 Mnist介绍:mnist是…

caffe路径正确,却读不到图片

调试caffe,用已有的网络训练自己的数据集的时候(我这里做的是二分类)。在生成均值文件之后,开始train,发现出现了这个问题。 1,路径正确,却读不到图片。 [db_lmdb.hpp:15] Check failed: mdb_st…

Eclipse可以执行jsp文件却无法访问Tomcat主页

点击Servers,然后双击本地的Tomcat服务器 出现如下界面 这里要选择第二项 再重新启动Tomcat就行了 转载于:https://www.cnblogs.com/lls1350767625/p/10452565.html

caffe调用的一个例子

本文是学习Caffe官方文档"ImageNet Tutorial"时做的,同样由于是Windows版本的原因,很多shell脚本不能直接使用,走了不少弯路,但是收获也不少。比如:如何让shell脚本在Windows系统上直接运行、如何去用Caffe给…