第3章 多模型思维

目录

  • 1. 孔多塞陪审团定理和多样性预测定理
  • 2. 分类模型
  • 3. 适当的模型粒度
  • 4. 一对多
    • 更高的幂
      • 超级油轮
      • 身体质量指数
      • 代谢率
      • 女性CEO
  • 5. 多模型思维

1. 孔多塞陪审团定理和多样性预测定理

  • 孔多塞陪审团定理(Condorcet jury theorem)

    • 从一个解释多数规则长处的模型中推导出来的

    • 通过构建多个模型并使用多数规则,将比只使用其中一个模型更加准确

    • 依赖于**世界状态(state of world)**的概念,它是对所有相关信息的完整描述

    • 如果许多模型都导致相似的结果,那我们就得到了一个强有力的定理,它基本上不受模型细节的影响

    • 我们的真理就是若干独立的谎言的交集

    • 当许多模型都给出了相同的分类时,我们会信心大增

  • 多样性预测定理(Diversity prediction theorem)

    • 用于给出数值预测或估值的模型
    • 它量化了模型的准确性和多样性对所有模型平均准确性的贡献

    多模型误差 = 平均模型误差 − 模型预测的多样性 ( M ‾ − V ) 2 = ∑ i = 1 N ( M i − V ) N − ∑ i = 1 N ( M i − M ‾ ) N M i : 模型 i 的预测 M ‾ : 模型的平均值 V : 真值 多模型误差 = 平均模型误差-模型预测的多样性 \\ (\overline{M} - V) ^ 2 = \sum_{i=1}^{N}\frac{(M_i - V)}{N} - \sum_{i=1}^{N}\frac{(M_i - \overline{M})}{N} \\ M_i:模型i的预测 \\ \overline{M}:模型的平均值 \\ V:真值 多模型误差=平均模型误差模型预测的多样性(MV)2=i=1NN(MiV)i=1NN(MiM)Mi:模型i的预测M:模型的平均值V:真值

    • 相反类型的误差会相互抵消

    • 两个模型的误差相互抵消,模型的平均值将比任何一个模型更加准确

    • 即使两个模型预测值都太高,这些预测值的平均误差仍然不会比两个高预测值的平均误差更糟

    • 群体的智慧(Wisdom of crowds):任何多样性的模型的集合将比其普遍成员的预测更加准确

2. 分类模型

  • 将世界状态划分为不相交的

  • 对世界分类的10个范畴

    • 实体(substance)
    • 数量(quantity)
    • 地点(location)
    • 状态(positioning)
    • ···
  • 相关属性的数量限制了不同类别的数量。因此也就限制了有用模型的数量

  • 分类模型

    • 存在一组世界的对象或状态,每个对象或状态都由一组属性定义,每个属性都有一个值
    • 根据对象的属性,分类模型 M M M将对象或状态划分为一个有限的类别 { S 1 , S 2 , ⋅ ⋅ ⋅ , S n } \{S_1,S_2,···,S_n\} {S1,S2,⋅⋅⋅,Sn},然后给每个类别赋值 { M 1 , M 2 , ⋅ ⋅ ⋅ , M n } \{M_1,M_2,···,M_n\} {M1,M2,⋅⋅⋅,Mn}
  • 虽然增加模型可以提高准确性,但是在已经拥有了一定数量的模型之后再继续添加模型,每个模型的边际贡献就会下降

  • 如果能构建出多个多样性的、准确的模型,我们就可以做出准确的预测和估值,并选择正确的行动

3. 适当的模型粒度

  • 通过简化,我们可以应用逻辑来解释现象、交流思想、并探索各种各样的可能性

  • 我们拥有的数据越多,模型就越精细

  • 创造过多的类别会导致对数据的过度拟合,而过度拟合会破坏对未来事件的预测

  • 分类误差(Categorization error):每个类别中,数据均值的误差

    • 与类别数量成正比
  • 估值误差(Valuation error):估计均值的误差

    • 与类别数量成反比
  • 模型误差分解定理(model error decomposition theorem)
    偏差 − 方差权衡( b i a s − v a r i a n c e t r a d e − o f f ) 模型误差 = 分类误差 + 估值误差 ∑ x ∈ X ( M ( x ) − V ( x ) ) 2 = ∑ i = 1 n ∑ x ∈ S i ( V ( x ) − V i ) 2 + ∑ i = 1 n ( M i − V i ) 2 M ( x ) : 数据点 x 的模型值 M i : 类别 S i 的模型值 V ( x ) : 数据点 x 的实际值 V i : 类别 S i 的实际值 偏差-方差权衡(bias-variance trade-off) \\ 模型误差 = 分类误差 + 估值误差 \\ \sum_{x\in{X}}(M(x)-V(x))^2 = \sum_{i=1}^n\sum_{x\in{S_i}}(V(x)-V_i)^2 + \sum_{i=1}^n(M_i-V_i)^2 \\ M(x):数据点x的模型值 \\ M_i:类别S_i的模型值 \\ V(x):数据点x的实际值 \\ V_i:类别S_i的实际值 \\ 偏差方差权衡(biasvariancetradeoff模型误差=分类误差+估值误差xX(M(x)V(x))2=i=1nxSi(V(x)Vi)2+i=1n(MiVi)2M(x):数据点x的模型值Mi:类别Si的模型值V(x):数据点x的实际值Vi:类别Si的实际值

4. 一对多

  • 我们不能随便拿起一个模型就将它应用到任何情境之中,但是,大多数模型都是灵活的

更高的幂

超级油轮

  • 设邮轮为一个长方体,且宽和高为 S S S,长度为 8 S 8S 8S
  • 则表面积为 34 S 2 34S^2 34S2,体积为 8 S 3 8S^3 8S3
  • 表面积决定成本,体积决定收益

体积 表面积 = 8 S 3 34 S 2 ≈ S 4 \frac{体积}{表面积} = \frac{8S^3}{34S^2} \approx \frac{S}{4} 表面积体积=34S28S34S

  • 随着 S S S的增长,盈利能力呈线性增长

身体质量指数

  • 设人体为一个近似完美的立方体,且1立方米立方体的重量为 M M M,身高为 H H H

B M I = M H 3 H 2 = H M BMI = \frac{MH^3}{H^2} = HM BMI=H2MH3=HM

  • 此时模型有2个缺陷
    • 身高本应与肥胖无关
    • 肌肉发达是肥胖的对立面
  • 解决方法
    • 添加参数 d d d表示一个人的“深度”(前胸到后背的厚度)
    • 添加参数 w w w表示一个人的“宽度”

B M I = H ∗ ( d H ) ∗ ( w H ) ∗ M H 2 = d w H M BMI = \frac{H * (dH) * (wH) * M}{H^2} = dwHM BMI=H2H(dH)(wH)M=dwHM

代谢率

  • 设小鼠和大象皆为一个近似完美的立方体,且身体由 1 c m 3 1cm^3 1cm3的细胞组成,小鼠表面积为 14 c m 2 14cm^2 14cm2,体积为 3 c m 3 3cm^3 3cm3,大象表面积为 57600 c m 2 57600cm^2 57600cm2,体积为 864000 c m 3 864000cm^3 864000cm3

小鼠 : 表面积 体积 = 14 c m 3 3 c m 3 ≈ 5 大象 : 表面积 体积 = 57600 c m 3 864000 c m 3 ≈ 1 15 小鼠: \frac{表面积}{体积} = \frac{14cm^3}{3cm^3} \approx 5 \\ 大象: \frac{表面积}{体积} = \frac{57600cm^3}{864000cm^3} \approx \frac{1}{15} 小鼠:体积表面积=3cm314cm35大象:体积表面积=864000cm357600cm3151

  • 小鼠每立方厘米的细胞,就有 5 c m 2 5cm^2 5cm2的体表皮肤来散热
  • 大象每立方厘米的细胞,仅有 1 15 c m 2 \frac{1}{15}cm^2 151cm2的体表皮肤来散热
  • 综上,小鼠散热的速度是大象的 75 75 75

女性CEO

  • 设成为一名CEO,至少要升职 15 15 15
  • 并且升职时会出现有利于男性的偏差,即男性的升职率略高于女性,则设两个概率分别为 50 % 50\% 50% 40 % 40\% 40%

男性 : ( 50 % ) 15 = 0.000030517578125 女性 : ( 40 % ) 15 = 0.000001073741824 男性 女性 = 0.000030517578125 0.000001073741824 ≈ 30 男性: (50\%)^{15} = 0.000030517578125 \\ 女性: (40\%)^{15} = 0.000001073741824 \\ \frac{男性}{女性} = \frac{0.000030517578125}{0.000001073741824} \approx 30 男性:(50%)15=0.000030517578125女性:(40%)15=0.000001073741824女性男性=0.0000010737418240.00003051757812530

  • 差异的累计最终成为非常巨大的差异

5. 多模型思维

  • 成功的一对多思维取决于创造性地调整假设和构建新的类比,以便将为某个特定目的而开发的模型应用到新的领域
  • 要成为一个多模型思考者,需要的不仅仅是数学能力,更需要的是创造力

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/229543.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

小程序开发使用vant库

初始化项目步骤就不做阐述。 第一步:安装依赖 vant/weapp npm下载命令:npm i vant/weapp -S --production npm下载命令:yarn add vant/weapp -S --production 第二步 :修改配置 1、找到miniprogram文件下的app.json 将 app.j…

小程序中的合法域名的作用及条件有哪些?

小程序的合法域名是指小程序项目中使用的各种接口、资源文件等所在的域名。在小程序开发中,需要将这些域名添加到小程序后台的“开发设置”-“服务器域名”中进行配置,才能够正常使用。 合法域名的作用: 1.作为小程序请求的 API 服务器域名…

玩转Docker(五):网络

文章目录 〇、关于linux系统网络一、none网络二、host网络三、bridge网络四、user-defined网络 Docker安装时会自动在host上创建三个网络,我们可用docker network ls命令查看: docker network ls那么这几种网络分别有什么含义呢?在回答这个问…

Hive高级语法

-- 通过 hive 加载数据 -- 创建数据表 USE myhivebook; CREATE TABLE IF NOT EXISTS student ( id int, name string ) comment 学生表 row FORMAT delimited fields terminated BY ,; desc formatted student; -- 创建数据 vi /root/data/student.dat 1001,tom 100…

机器视觉技术与应用实战(Chapter Two-03)

2.5 图像滤波和增强 滤波的作用是:图像中包含需要的信息,也包含我们不感兴趣或需要屏蔽的干扰,去掉这些干扰需要使用滤波。 增强的作用是:通过突出或者抑制图像中某些细节,减少图像的噪声,增强图像的视觉效…

Jenkins----基于 CentOS 或 Docker 安装部署Jenkins并完成基础配置

查看原文 文章目录 基于 CentOS7 系统部署 Jenkins 环境基于 Docker 安装部署 Jenkins环境配置 Jenkins 中文模式配置用户名密码形式的 Jenkins 凭据配置 ssh 私钥形式的 Jenkins 凭据配置 Jenkins 执行任务的节点 基于 CentOS7 系统部署 Jenkins 环境 (1&#xff…

使用Nginx实现负载均衡的实践指南

目录 前言1 负载均衡简介2 需要实现的效果3 准备2个tomcat服务器4 配置Nginx实现负载均衡5 Nginx的服务器策略5.1 轮询(默认)5.2 权重(weight)5.3 IP哈希(ip_hash)5.4 响应时间公平分配(fair&am…

C# DotNetCore AOP简单实现

背景 实际开发中业务和日志尽量不要相互干扰嵌套,否则很难维护和调试。 示例 using System.Reflection;namespace CSharpLearn {internal class Program{static void Main(){int age 25;string name "bingling";Person person new(age, name);Conso…

Day63力扣打卡

打卡记录 寻找最近的回文数(模拟) 链接 class Solution:def nearestPalindromic(self, n: str) -> str:m len(n)candidates [10 ** (m - 1) - 1, 10 ** m 1]selfPrefix int(n[:(m 1) // 2])for x in range(selfPrefix - 1, selfPrefix 2):y …

[强网杯 2019]Upload

[强网杯 2019]Upload 开放注册直接注册一个账号然后登录进去 先对页面进行简单文件上传测试发现都不存在漏洞对网站进行目录扫描 发现www.tar.gz 打开发现是tp5框架发现源码 这里如果前面信息收集的完整会发现存在反序列化 对注册,登录,上传文件页面分…

React与VUE对照

React 和 Vue.js 都是现代前端开发中非常受欢迎的 JavaScript 框架/库。它们都有各自独特的特点和设计哲学,同时也有一些共同之处。以下是 React 和 Vue.js 的对比: 相似之处: 使用虚拟 DOM:React 和 Vue 都使用虚拟 DOM 来优化…

STM32F103RCT6开发板M3单片机教程06--定时器中断

前言 除非特别说明,本章节描述的模块应用于整个STM32F103xx微控制器系列,因为我们使用是STM32F103RCT6开发板是mini最小系统板。本教程使用是(光明谷SUN_STM32mini开发板) STM32F10X定时器(Timer)基础 首先了解一下是STM32F10X…

时序预测 | Python实现GRU-XGBoost组合模型电力需求预测

时序预测 | Python实现GRU-XGBoost组合模型电力需求预测 目录 时序预测 | Python实现GRU-XGBoost组合模型电力需求预测预测效果基本描述程序设计参考资料预测效果 基本描述 该数据集因其每小时的用电量数据以及 TSO 对消耗和定价的相应预测而值得注意,从而可以将预期预测与当前…

Linux:超级管理员(root用户)创建用户、用户组

root用户: 拥有最大的系统操作权限,而普通用户在许多地方的权限是受限的。 演示: 1、使用普通用户在根目录下创建文件夹(失败) 2、切换到root用户后,继续尝试(成功) 3、普通用户的权限&#…

TCP/IP详解——DNS 流量分析

文章目录 1. DNS 流量分析1.1 DNS 基本概念1.2 DNS 系统特性1.3 DNS 效率问题1.4 域名的组成1.5 域名解析系统1.5.1 域名解析过程 1.6 DNS 记录种类1.7 DNS 的报文格式1.7.1 DNS 报文中的基础结构部分1.7.2 DNS 查询报文中的问题部分1.7.3 DNS 响应报文中的资源记录部分1.7.4 示…

力扣面试150题 | 15.三数之和

力扣面试150题 | 15.三数之和 题目描述解题思路代码实现 题目描述 15.三数之和 给你一个整数数组 nums ,判断是否存在三元组 [nums[i], nums[j], nums[k]] 满足 i ! j、i ! k 且 j ! k ,同时还满足 nums[i] nums[j] nums[k] 0 。请你返回…

【开源项目】WPF 扩展 -- 多画面视频渲染组件

目录 1、项目介绍 2、组件集成 2.1 下载地址 2.2 添加依赖 3、使用示例 3.1 启动动画 3.2 视频渲染 3.3 效果展示 4、项目地址 1、项目介绍 Com.Gitusme.Net.Extensiones.Wpf 是一款 Wpf 扩展组件。基于.Net Core 3.1 开发,当前是第一个发布版本 1.0.0&am…

Java架构师系统架构内部维度分析

目录 1 导语2.1 安全性维度概述2.2 流程安全性2.3 架构安全性2.4 安全维度总结3 伸缩性维度概述和场景思路3.1 无状态应用弹性伸缩3.2 阿里云Knative弹性伸缩3.3 有状态应用弹性伸缩3.4 伸缩性维度总结想学习架构师构建流程请跳转:Java架构师系统架构设计 1 导语

MySQL数据库管理优化及高阶语句(用户,权限,索引,事务,存储引擎,备份,视图,查询,存储过程)

数据库用户管理 新建用户 CREATE USER 用户名来源地址 [IDENTIFIED BY [PASSWORD] 密码]; //用户名:指定将创建的用户名. 来源地址:指定新创建的用户可在哪些主机上登录,可使用IP地址、网段、主机名的形式,本地用户可用localhos…

数据仓库与数据挖掘c5-c7基础知识

chapter5 分类 内容 分类的基本概念 分类 数据对象 元组(x,y) X 属性集合 Y 类标签 任务 基于有标签的数据,学习一个分类模型,通过这个分类模型,可以把一组属性x映射到一个特定的类别y上 类别y 提前设定好的--如:学生…