多臂老虎机理论系列

@[多臂老虎机理论](Lower bounds for non-adaptive exploration)

多臂老虎机之Lower bounds

定理 2.12
在这里插入图片描述
定理的意义在于,对于任何不调整探索策略的算法,存在至少一个问题实例,使得随着时间的推移,该算法的预期遗憾将至少与 T 2 / 3 × K 1 / 3 T^{2/3}\times K^{1/3} T2/3×K1/3 的乘积成比例增长。这表明,如果算法不采用基于过去经验调整其探索策略的自适应方法,那么在最坏情况下,它的性能会受到明显的限制。简而言之,这个定理强调了自适应探索在优化多臂老虎机问题中的重要性。
在这里插入图片描述
定理 2.12: 建立在定理 2.11 的基础上,提出了一个更精细的下界。在定理 2.12 中,它假设了所有问题实例中,算法的预期遗憾的上界为 C ⋅ T γ C \cdot T^\gamma CTγ,其中 γ ∈ [ 2 / 3 , 1 ) \gamma\in[2/3,1) γ[2/3,1),这意味着遗憾的增长速度慢于线性但快于 T 2 / 3 T^{2/3} T2/3。然而,定理指出即便如此,在最坏情况下,总遗憾的预期值仍然有一个较大的下界,具体为 E [ R ( T ) ] ≥ Ω ( C − 2 ⋅ T λ ⋅ ∑ a Δ ( a ) ) , where  λ = 2 ( 1 − γ ) . \mathbb{E}[R(T)] \geq \Omega (C^{-2} \cdot T^\lambda \cdot \sum_a \Delta(a)), \text{ where } \lambda = 2(1 - \gamma). E[R(T)]Ω(C2TλaΔ(a)), where λ=2(1γ).

这里的 Δ ( a ) \Delta(a) Δ(a) 指的是某个臂 a a a 的期望奖励与最佳臂之间的差距,而 ∑ a Δ ( a ) \sum_a \Delta(a) aΔ(a) 就是所有臂的这种差距的总和。

文中提到的 Explore-first 策略,是一种先进行 N 轮探索的策略,其中 N N N是与 Δ − 2 log ⁡ T \Delta^{-2} \log T Δ2logT 成正比的轮数。在这种情况下,如果问题实例的最小间隔至少为 Δ \Delta Δ,这种探索策略可以导致对数级别的遗憾增长,这在多臂老虎机问题中是一种非常有效的遗憾增长率。
在这里插入图片描述

文中讨论了算法在多臂老虎机问题中的表现,特别是在所有问题实例上算法的遗憾上界和特定情况下的下界。
算法在所有问题实例上的遗憾上界: E [ R ( T ) ] ≤ O ~ ( T 2 / 3 ⋅ K 1 / 3 ) \mathbb{E}[R(T)] \leq \tilde{O} (T^{2/3} \cdot K^{1/3}) E[R(T)]O~(T2/3K1/3)。如果臂是随机排列的,算法在每个问题实例上的遗憾下界: E [ R ( T ) ] ≥ Ω ( Δ ⋅ T 2 / 3 ⋅ K − 1 / 3 ) , \mathbb{E}[R(T)] \geq \Omega (\Delta \cdot T^{2/3} \cdot K^{-1/3}), E[R(T)]Ω(ΔT2/3K1/3),

2.6 Instance-dependent lower bounds

在这里插入图片描述

这段文本提及的是多臂老虎机问题中的另一个基本下界。这里的下界是指算法在最优策略下所能实现的最小遗憾,这个下界依赖于实例的特定参数。文本中说的是,不同于 K T \sqrt{KT} KT 这种对所有问题实例都适用的下界,存在一个与实例相关的常数,这个常数与 log ⁡ ( T ) \log(T) log(T) 相乘后给出了一个下界。这表明对于每一个问题实例,遗憾不能低于 Ω ( log ⁡ ( T ) ) \Omega(\log(T)) Ω(log(T)) 的增长速度。这个下界补充了UCB1和Successive Elimination算法的 log ⁡ ( T ) \log(T) log(T)上界。基本下界公式: Ω ( log ⁡ ( T ) ) regret \Omega(\log(T)) \text{ regret} Ω(log(T)) regret,这个下界是对于所有问题实例都适用的,并且它强调了算法性能的一个重要限制——即使在最好的情况下,遗憾的增长速度也至少是对数级别的。
在这里插入图片描述
定理 2.13 表明没有算法能够达到预期遗憾小于 o ( c T log ⁡ t ) o(c_T \log t) o(cTlogt) 对于所有问题实例 I I I,其中“常数” c T c_T cT 可以依赖于问题实例但不依赖于时间 t t t。定理 2.13 指出,至少存在一个问题实例使得任何给定算法都有“高”遗憾。这个下界是对算法的一个限制,它说明在最佳情况下,算法的遗憾增长速度至少是对数级别的。作者提出要有一个更强的下界,确保每个问题实例都有高遗憾,但这是不可能的,因为总会有一些简单的策略在某些问题实例上表现得很好,即使这些策略看起来很“愚蠢”。例如,一个总是选择第一个臂的算法,在第一个臂是最佳的情况下遗憾为零。

为了排除这些反例,我们需要算法在所有问题实例上都表现得相对较好,即使它们不一定是最优的。
在这里插入图片描述
定理 2.14 为多臂老虎机问题中算法的遗憾提供了上界和下界。

上界表述如下:对于每个问题实例 I I I 和每个 α > 0 \alpha > 0 α>0,存在一个与问题实例和 α \alpha α 相关,但与时间 t t t 无关的常数 C I , α C_{I,\alpha} CI,α,使得算法的预期遗憾 E [ R ( t ) ] \mathbb{E}[R(t)] E[R(t)] 满足 E [ R ( t ) ] ≤ O ( C I , α t α ) \mathbb{E}[R(t)] \leq O(C_{I,\alpha} t^\alpha) E[R(t)]O(CI,αtα)。这说明算法的性能不会随时间的推移无限下降;遗憾的增长有一个上限,该上限随时间的增长速度慢于 t t t 的任意正实数次幂。

下界表述如下:对于任意固定的问题实例 I I I,存在一个时间点 t 0 t_0 t0,使得对所有 t ≥ t 0 t \geq t_0 tt0,算法的预期遗憾满足 E [ R ( t ) ] ≥ C I ln ⁡ ( t ) \mathbb{E}[R(t)] \geq C_I \ln(t) E[R(t)]CIln(t),这里的常数 C I C_I CI 依赖于问题实例但不依赖于时间 t t t。这意味着随着时间的推移,算法的性能不能比对数增长的遗憾更好。

总的来说,定理 2.14 描述了多臂老虎机算法的一个性能界限,它告诉我们算法的遗憾随时间的增长是受限的,并且至少有对数级别的遗憾增长是不可避免的。这对于理解算法在长期运行中的表现具有重要意义。
在这里插入图片描述
该评论(Remark 2.15)提到了多臂老虎机算法性能的一个假设,并引入了如何根据臂的“间隙”来精细化定理 2.14。

Remark中提到的假设(Assumption 2.16)表明,如果一个算法的预期遗憾 E [ R ( t ) ] \mathbb{E}[R(t)] E[R(t)] 小于等于 ( log ⁡ t ) 1000 (\log t)^{1000} (logt)1000,那么它满足定理 2.14 中对预期遗憾的要求。

这个评论的意图是要进一步完善定理 2.14,特别是在如何选择与实例相关的常数 C I C_I CI 上给出指导。这种精细化允许我们根据每个臂的间隙来调整算法的性能指标,以此提供一个更为个性化的遗憾界限,而不是使用一个普遍适用的常数。通过这样的方式,我们可以更精确地描述算法的长期性能,尤其是在面对不同难度的问题实例时。

简而言之,Remark 2.15 强调了在特定条件下,算法遗憾的界限可以进一步细化,并根据每个臂的间隙进行个性化调整。这有助于更好地理解算法在面对具有不同奖励结构的问题实例时的表现。

在这里插入图片描述

定理 2.16 给出了在多臂老虎机问题中,对于任何满足一定假设的算法的预期遗憾的两个不同界限的计算方法。

  • (a)部分 提供了一个界限,其中 C T C_T CT 的值由所有臂的间隙 Δ ( a ) \Delta(a) Δ(a) 的倒数加权的和决定,乘以最优臂的期望奖励 μ ∗ \mu^* μ ( 1 − μ ∗ ) (1 - \mu^*) (1μ) 的乘积:

    C T = ∑ a : Δ ( a ) > 0 μ ∗ ( 1 − μ ∗ ) Δ ( a ) C_T = \sum_{a: \Delta(a)>0} \frac{\mu^*(1 - \mu^*)}{\Delta(a)} CT=a:Δ(a)>0Δ(a)μ(1μ)

  • (b)部分 提供了另一个界限,适用于每个 ε > 0 \varepsilon > 0 ε>0,这里 C T C_T CT 是一个由臂的间隙 Δ ( a ) \Delta(a) Δ(a) 和臂 a a a 的期望奖励 μ ( a ) \mu(a) μ(a) 与最优臂期望奖励 μ ∗ \mu^* μ 之间的Kullback-Leibler散度的倒数加权的和,再减去一个小的正数 ε \varepsilon ε

    C T = ∑ a : Δ ( a ) > 0 Δ ( a ) K L ( μ ( a ) , μ ∗ ) − ε C_T = \sum_{a: \Delta(a)>0} \frac{\Delta(a)}{KL(\mu(a), \mu^*)} - \varepsilon CT=a:Δ(a)>0KL(μ(a),μ)Δ(a)ε

这些计算方法为算法在面对不同问题实例时,提供了量化的预期遗憾下界。

在这里插入图片描述
评论 2.17 对定理 2.14(a) 中的下界与两种特定算法的上界进行了比较。这两种算法是UCB1(Upper Confidence Bound 1)和Successive Elimination。

在多臂老虎机问题中,算法的目标是最小化遗憾,这是真实奖励与算法所选动作奖励之间的差值累计和。UCB1 和 Successive Elimination 都是尝试解决这个问题的算法。评论中提到的下界表示,即使在最优情况下,算法的遗憾也至少会按照某个和问题实例相关的对数因子增长。具体来说: R ( T ) ≤ ∑ a : Δ ( a ) > 0 O ( log ⁡ T ) Δ ( a ) R(T) \leq \sum_{a: \Delta(a)>0} \frac{O(\log T)}{\Delta(a)} R(T)a:Δ(a)>0Δ(a)O(logT)这里的 Δ ( a ) \Delta(a) Δ(a) 是指非最优臂 a a a 与最优臂之间的期望奖励差值,而 O ( log ⁡ T ) O(\log T) O(logT) 表示遗憾增长的上界是对数级别的。这个下界是类似于UCB1和Successive Elimination算法遗憾增长的上界。

此外,评论还指出,当最优臂的期望奖励 μ ∗ \mu^{*} μ 避开 0 和 1 的值时,上界是最优的,直到一个常数因子。例如,当 μ ∗ \mu^* μ 的值在 [ 1 / 4 , 3 / 4 ] [1/4, 3/4] [1/4,3/4] 的范围内时,上界被认为是最优的。这意味着,当最优臂的期望奖励既不是非常低也不是非常高时,这些算法提供的性能界限是紧的,即它们不能再被进一步提升。
在这里插入图片描述

评论 2.18 强调 (b)部分是一个更强(即更大)的下界,它隐含了 (a)部分中更为熟悉的形式。此外,一些算法已知可以任意接近这个下界,特别是汤普森采样(Thompson Sampling),它实现了如下的遗憾界限:

R ( t ) ≤ ( 1 + δ ) C T ln ⁡ ( t ) + C I ′ / ε 2 R(t) \leq (1 + \delta) C_T \ln(t) + C'_I / \varepsilon^2 R(t)(1+δ)CTln(t)+CI/ε2

其中 δ > 0 \delta > 0 δ>0 C T C_T CT 来自 (b)部分,而 C I ′ C'_I CI 是另一个依赖于问题实例的常数。这个表达式说明,汤普森采样算法的遗憾增长可以被限制在对数项的一个因子(被 ( 1 + δ ) (1 + \delta) (1+δ) 扩大了一点点)加上一个与 ε \varepsilon ε 相关的项。

Remark 2.8强调了算法遗憾的理论下界是实际可达的,并且某些算法,比如汤普森采样,可以实现接近这个界限的性能。这意味着在实践中,这些算法的遗憾可以被限制在一个较小的范围内,这对于算法设计和性能评估是非常重要的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/649177.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux常见的管理命令

1. whoami 作用: 显示出当前有效的用户名称,Linux是多用户多任务 语法:whoami(选项) 选项: --help:在线帮助 --version:显示版本信息和退出 场景使用: 1. 当用户想要查看当前登录系统的用户…

14.case条件测试语句(5)

case语句是在多个范围内匹 配数据,若匹配成功则执行相关命令并结束整个条件测试;如果数据不在所列出的范围内, 则会去执行星号(*)中所定义的默认命令(C语言中的default语句) 提示用户输入一个字…

爬取樱花动漫名侦探柯南最新剧场版ts格式

import os import requests import zipfile from tqdm import tqdm import tkinter as tkfilename 名侦探柯南\\ if not os.path.exists(filename):os.mkdir(filename) # https://vip.ffzy-online6.com/20231129/22304_740e70d0/2000k/hls/cedd2dc1ecb000001.ts # https://vip…

硬件基础:存储器

之前对存储器做过简单的汇总,参考这篇文章: 计算机/微机存储技术_路溪非溪的博客-CSDN博客 这次,我们从数字集成电路的角度再次补充学习一下存储器的知识。 定义和分类 从这里面我们能知道一些关键词。 存储介质主要是半导体器件和磁性材料。…

亿发中小型企业erp软件智能化赋能,专业助力广东制造行业生产流程管理

在当前经济全球化的环境下,广东省的中小型制造业企业正面临多方面的严峻挑战。包括产品质量的维护、分销渠道的稳定、生产成本降低以及减轻生产过程中的资源消耗等难题。目前,随着信息技术的迅速发展,一些先进的IT工具,比如企业资…

STM32实现软件IIC协议操作OLED显示屏(1)

时间记录:2024/1/25 一、IIC协议介绍 (1)协议介绍 IIC(又称I2C,Inter-Integrated Circuit),即集成电路总线,是一种两线式串行总线,由PHILIPS公司开发,用…

OSS上传下载乱码问题

配置headers: "Content-Disposition": attachment; filename*UTF-8${encodeURIComponent(file.file.name)},

【GitHub项目推荐--开源小游戏】【转载】

01 回合制生存游戏 Cataclysm-DDA 是一款回合制生存游戏,背景设置在后世界末日的世界中。虽然有些人将其描述为“僵尸游戏”,但《大灾变》远不止这些。努力在一个严酷、持久、程序生成的世界中生存。 为食物、设备寻找一个死去的文明的残余物。或者&am…

ThinkPHP+uni-app框架熊猫电竞赏金电竞系统源码PHP含APP+H5

熊猫电竞赏金电竞系统源码,包含APP、H5和搭建视频教程,支持运营级搭建,这套源码是基于ThinkPHPUniaapp框架开发的。 赏金电竞系统源码 APPh5搭建视频 可搭建!运营级! 赏金赛源码,用户通过平台打比赛&#x…

小白水平理解面试经典题目LeetCode 594 Longest Harmonious Subsequence(最大和谐字符串)

594 最大和谐字符串 这道题属于字符串类型题目,解决的办法还是有很多的,暴力算法,二分法,双指针等等。 题目描述 和谐数组是指一个数组里元素的最大值和最小值之间的差别 正好是 1 。 现在,给你一个整数数组 nums …

用vue实现微信小程序的点餐首页-纯前端效果

一、效果图 图片来源于网络 二、代码 <template><view class"container"><view class"top"><image src"../../static/img/home.png" class"home"></image></view><view class"content&…

安装好IntelliJ IDEA点击无反应,如何解决配置文件不一致导致的启动问题

在我们的开发生涯中&#xff0c;遇到IDE工具出现问题是在所难免的。最令人头疼的莫过于&#xff0c;你的IDEA(IntelliJ IDEA)无法启动&#xff0c;而且没有任何错误提示。这篇文章将详细讲解如何解决IntelliJ IDEA 2023.3.3版本启动失败的问题&#xff0c;这个问题可能也适用于…

Linux的文件系统、软硬链接、动静态库

前要&#xff1a;本次我想给您带来关于 IO 和文件的知识&#xff0c;而文件在本系列中分为内存上的文件和磁盘上的文件。 1.文件概念 1.1.文件读写 在谈及系统接口之前&#xff0c;我们先来从 C 语言的角度来谈及一些前要知识&#xff0c;以辅助我们后续来理解系统 IO。 我们…

LeetCode.2859. 计算 K 置位下标对应元素的和

题目 题目链接 分析 这道题的题意很明确。就是求每一个下标的二进制中1的个数为k的下标所对应的元素值之和。 Java 中有 库函数 Integer.bitCount(num)&#xff0c;这个函数的返回值就是 num 中 1 的个数。 代码 class Solution {public int sumIndicesWithKSetBits(List…

uniapp状态管理Vuex介绍及vuex核心概念

状态管理Vuex Vuex 是什么&#xff1f; Vuex 是一个专为 Vue.js 应用程序开发的状态管理模式。它采用集中式存储管理应用的所有组件的状态&#xff0c;并以相应的规则保证状态以一种可预测的方式发生变化。 uni-app 内置了 Vuex 什么是“状态管理模式”&#xff1f; <!…

英特尔正式发布OpenVINO™ 2023.3版本

2024年1月24日&#xff0c;英特尔正式发布了OpenVINO™ 2023.3版本&#xff08;Release Notes for Intel Distribution of OpenVINO Toolkit 2023.3&#xff09;。OpenVINO™是英特尔针对自家硬件平台开发的一套深度学习工具库&#xff0c;包含推断库&#xff0c;模型优化等等一…

决策树的基本构建流程

决策树的基本构建流程 决策树的本质是挖掘有效的分类规则&#xff0c;然后以树的形式呈现。 这里有两个重点&#xff1a; 有效的分类规则&#xff1b;树的形式。 有效的分类规则&#xff1a;叶子节点纯度越高越好&#xff0c;就像我们分红豆和黄豆一样&#xff0c;我们当然…

【Java基础】聊聊你不知道的注解那些事

在实际的开发中&#xff0c;我们大量使用了注解&#xff0c;无论是spring、还是本身jdk提供的&#xff0c;注解都是围绕一个java程序员的开发生活&#xff0c;所以本篇主要介绍注解相关的概念、理论、实践。 定义注解 注解和异常非常相似&#xff0c;都可以自定义&#xff0c…

如何在html5中的canvas绘制文本自动换行?

在这篇文章中我们讲解了怎么解决canvas绘图过程中,drawText的换行问题,先看一个大家平时在canvas绘制文本都会遇到的问题: 一个150*100的canvas画布,加个边框明显边界 <canvas id="canvas" style="border:solid 1px darkgoldenrod;" width="2…

ubuntuNginx反向代理和负载均衡

配置两台服务器确保nginx启动并且可以访问 配置nginx代理服务器 可以选择直接安装或者编译安装nginx rootubuntu:~# apt install libgd-dev #安装依赖 rootubuntu:~# apt update rootubuntu:~# apt install libpcre3 libpcre3-dev rootubuntu:~# apt-get install openssl…