【Machine Learning】Optimization

本笔记基于清华大学《机器学习》的课程讲义梯度下降相关部分,基本为笔者在考试前一两天所作的Cheat Sheet。内容较多,并不详细,主要作为复习和记忆的资料。

Smoothness assumption

  • Upper Bound for ∇ 2 f ( x ) \nabla^2f(x) 2f(x): ∥ ∇ 2 f ( w ) ∥ ≤ L \left\|\nabla^2f(w)\right \|\le L 2f(w) L

    f ( w ′ ) ≤ f ( w ) + ⟨ ∇ f ( w ) , w ′ − w ⟩ + L 2 ∥ w ′ − w ∥ 2 f(w')\le f(w)+\langle \nabla f(w), w'-w\rangle+\frac{L}{2}\left\|w'-w\right \|^2 f(w)f(w)+f(w),ww+2Lww2

    equivalent to ∥ ∇ f ( w ) − ∇ f ( w ′ ) ∥ ≤ L ∥ w − w ′ ∥ \left\|\nabla f(w)-\nabla f(w')\right \|\le L\left\|w-w'\right \| f(w)f(w)Lww

    • Proof:

      • ⇒ \Rightarrow : ∥ ∇ f ( w ) − ∇ f ( w ′ ) ∥ ≤ ∥ ∇ 2 f ( x ) ∥ ∥ w − w ′ ∥ ≤ L ∥ w − w ′ ∥ \left\|\nabla f(w)-\nabla f(w')\right \|\le \left\|\nabla^2 f(x)\right\|\left\|w-w'\right \|\le L\left\|w-w'\right \| f(w)f(w) 2f(x) wwLww
      • ⇐ \Leftarrow
    • 2-side: ∣ f ( w ′ ) − f ( w ) − ⟨ ∇ f ( w ) , w ′ − w ⟩ ∣ ≤ L 2 ∥ w ′ − w ∥ 2 \left|f(w')-f(w)-\langle \nabla f(w), w'-w\rangle\right|\le \frac{L}{2}\left\|w'-w\right \|^2 f(w)f(w)f(w),ww2Lww2

    • contains both upper/lower bound

  • When w ′ = w − η ∇ f ( w ) w'=w-\eta\nabla f(w) w=wηf(w), η = 1 L \eta=\frac{1}{L} η=L1 to make sure

    f ( w ′ ) − f ( w ) = − 1 2 η ∥ ∇ f ( x ) ∥ 2 < 0 f(w')-f(w)=-\frac{1}{2\eta}\left\|\nabla f(x)\right \|^2<0 f(w)f(w)=2η1f(x)2<0

Convex Function

  • Lower Bound for ∇ 2 f ( x ) \nabla^2f(x) 2f(x)

    f ( w ′ ) ≥ f ( w ) + ∇ f ( w ) T ( w ′ − w ) f(w')\ge f(w)+\nabla f(w)^T(w'-w) f(w)f(w)+f(w)T(ww)

    • λ min ⁡ ∇ 2 f ( w ) ≥ 0 \lambda\min\nabla^2 f(w)\ge 0 λmin2f(w)0
  • Strong convex function: f ( w ′ ) ≥ f ( w ) + ∇ f ( w ) T ( w ′ − w ) + μ 2 ∥ w − w ′ ∥ 2 f(w')\ge f(w)+\nabla f(w)^T(w'-w)+\frac{\mu}{2}\left\|w-w'\right\|^2 f(w)f(w)+f(w)T(ww)+2μww2

    • λ min ⁡ ∇ 2 f ( w ) ≥ μ ≥ 0 \lambda\min \nabla^2f(w)\ge \mu \ge 0 λmin2f(w)μ0

Convergence Analysis

  • f f f is L L L-smooth

  • The sequence is w 0 , w 1 , . . . , w t w_0,w_1,...,w_t w0,w1,...,wt and the optimized point is w ∗ w^* w,

  • w i = w i − 1 − η ∇ f ( w i − 1 ) w_i=w_{i-1}-\eta \nabla f(w_{i-1}) wi=wi1ηf(wi1)

  • η < 2 L \eta<\frac{2}{L} η<L2

  • Gradient Descent make progress

f ( w ′ ) − f ( w ) ≤ − η ( 1 − L η 2 ) ∥ ∇ f ( w ) ∥ 2 f(w')-f(w)\le -\eta\left(1-\frac{L\eta}{2}\right)\left\|\nabla f(w)\right \|^2 f(w)f(w)η(12Lη)f(w)2

  • Convex function: 1 / t 1/t 1/t convergence rate

f ( w t ) − f ( w ∗ ) ≤ ∥ w 0 − w ∗ ∥ 2 2 t η f(w_t)-f(w^*)\le \frac{\left\|w_0-w^*\right \|^2}{2t\eta} f(wt)f(w)2tηw0w2

Stochastic Gradient Descent(SGD)

  • f f f is L L L-smooth and convex

  • w t + 1 = w t − η G t , E [ G t ] = ∇ f ( w t ) w_{t+1}=w_t-\eta G_t,E[G_t]=\nabla f(w_t) wt+1=wtηGt,E[Gt]=f(wt)

E f ( w t ‾ ) − f ( w ∗ ) ≤ ∥ w 0 − w ∗ ∥ 2 2 t η + η σ 2 E f(\overline{w_t})-f(w^*)\le \frac{\left\|w_0-w^*\right \|^2}{2t\eta}+\eta \sigma^2 Ef(wt)f(w)2tηw0w2+ησ2

  • Convergence rate 1 / t 1/\sqrt{t} 1/t

SVRG

Proof: To read.

Mirror Descent

  • After k k k iterations, f ( x ˉ ) − f ( u ) ≤ 1 k ∑ t = 0 k − 1 ⟨ ∇ f ( x t ) , x t − u ⟩ f(\bar{x})-f(u)\le \frac{1}{k}\sum_{t=0}^{k-1}\langle \nabla f(x_t),x_t-u\rangle f(xˉ)f(u)k1t=0k1f(xt),xtu (also calls regret)becomes smaller.

  • f f f is ρ \rho ρ-Lipschitz, that is ∣ ∇ f ( x ) ∣ ≤ ρ |\nabla f(x)|\le \rho ∣∇f(x)ρ. After T = O ( ρ 2 ϵ 2 ) T=O(\frac{\rho^2}{\epsilon^2}) T=O(ϵ2ρ2), f ( x ˉ ) − f ( x ∗ ) ≤ ϵ f(\bar{x})-f(x^*)\le \epsilon f(xˉ)f(x)ϵ. 1 / t 1/\sqrt{t} 1/t convergence rate.

  • Linear Coupling: 1 / t 2 1/t^2 1/t2 convergence rate. t ≥ Ω ( 1 ϵ ) 1 / 2 t\ge \Omega\left(\frac{1}{\epsilon}\right)^{1/2} tΩ(ϵ1)1/2

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/610045.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Kubernetes(K8S)云服务器实操TKE

一、 Kubernetes(K8S)简介 Kubernetes源于希腊语,意为舵手,因为首尾字母中间正好有8个字母,简称为K8S。Kubernetes是当今最流行的开源容器管理平台,是 Google 发起并维护的基于 Docker 的开源容器集群管理系统。它是大名鼎鼎的Google Borg的开源版本。 K8s构建在 Docker …

Spring Boot 接入 KMS 托管中间件密码第三方接口密钥

1. 需求 Nacos中关于中间件的密码&#xff0c;还有第三方API的密钥等信息&#xff0c;都是明文存储&#xff0c;不符合系统安全要求。现需对这些信息进行加密处理&#xff0c;Nacos只存储密文&#xff0c;并在服务启动时&#xff0c;调用云厂商的KMS接口进行解密&#xff0c;将…

QObject_timer

QObject int QObject::startTimer(int interval, Qt::TimerType timerType Qt::CoarseTimer) QObject本身自带的定时器函数&#xff0c;简单的定时任务不需要再使用QTimer&#xff0c;只需要重写timerEvent即可。 interval单位是毫秒&#xff0c;且必须大于等于0 如果interv…

C#编程-实现在文本文件中的读和写

实现在文本文件中的读和写 Stream类用于从文本文件读取数据和向文本文件写入数据。它是一个抽象类,支持向流读写字节。如果文件的数据仅是文本,那么您可以使用StreamReader类和StreamWriter类来完成相应的读和写任务。 StreamReader类 StreamReader类继承自从抽象类TextRea…

机器学习指南:如何学习机器学习?

机器学习 一、介绍 你有没有想过计算机是如何从数据中学习和变得更聪明的&#xff1f;这就是机器学习 &#xff08;ML&#xff09; 的魔力&#xff01;这就像计算机科学和统计学的酷炫组合&#xff0c;计算机从大量信息中学习以解决问题并做出预测&#xff0c;就像人类一样。 …

面试题:什么是雪花算法?啥原理?

SnowFlake 算法&#xff0c;是 Twitter 开源的分布式 ID 生成算法。 其核心思想就是&#xff1a;使用一个 64 bit 的 long 型的数字作为全局唯一 ID。在分布式系统中的应用十分广泛&#xff0c;且 ID 引入了时间戳&#xff0c;基本上保持自增的&#xff0c;后面的代码中有详细…

UV胶水能够粘接聚苯乙烯PS吗?需要注意哪些事项?又有哪些优势呢?

聚苯乙烯&#xff08;Polystyrene&#xff0c;简称PS&#xff09;是一种常见的合成聚合物&#xff0c;属于热塑性塑料。它是由苯乙烯单体聚合而成的&#xff0c;具有轻质、透明或半透明、电绝缘性好等特点。常见: 包装材料白色泡沫塑料&#xff08;EPS&#xff0c;用于包装、保…

不断发展的识别技术为多个行业带来新机遇

随着人工智能和机器学习技术的不断进步&#xff0c;识别技术已经得到了广泛的应用。识别技术是指通过计算机软件和硬件的配合&#xff0c;自动识别输入的信息并转换为可处理的数据的过程。这种技术的应用范围非常广泛&#xff0c;包括人脸识别、语音识别、文字识别、车牌识别等…

java注解学习

java注解 Annotation 为什么要学注解&#xff1f; 在日常开发中&#xff0c;基本都是在使用别人定义或是各种框架的注解&#xff0c;比如Spring框架中常用的一些注解&#xff1a;Controller、Service、RequestMapping&#xff0c;以此来实现某些功能&#xff0c;但是却不知道如…

神经网络(Neural Networks)

什么是机器学习 神经网络&#xff08;Neural Networks&#xff09;&#xff0c;也称为人工神经网络&#xff08;Artificial Neural Networks&#xff0c;ANNs&#xff09;是一种受到生物神经网络启发而设计的机器学习模型。神经网络由神经元&#xff08;或节点&#xff09;组成…

HarmonyOS@Link装饰器:父子双向同步

Link装饰器&#xff1a;父子双向同步 子组件中被Link装饰的变量与其父组件中对应的数据源建立双向数据绑定。 说明 从API version 9开始&#xff0c;该装饰器支持在ArkTS卡片中使用。 概述 Link装饰的变量与其父组件中的数据源共享相同的值。 装饰器使用规则说明 Link变…

echarts使用之柱状图

一、引入Echarts npm install eacharts --save 二、选择一个Echarts图 选择创建一个柱状图 option { // x轴参数的基本配置xAxis: {type: category,data: [Mon, Tue, Wed, Thu, Fri, Sat, Sun] //X轴数据}, // y轴参数的基本配置yAxis: {type: value}, // series:[{data: …

富文本BraftEditor引起的bug

1、BraftEditor踩坑1 #基于之前写的一篇BraftEditor的使用# 1. 问题起源&#xff1a; 打开编辑弹窗--> 下面页面所示--> 当进行分类选择时候&#xff0c;就会报错&#xff0c;并且这个报错还不是一直都有&#xff0c;6次选择出现一次报错吧 2. 解决&#xff1a; 2.1 起…

CES 2024:LG专注于新产品的人工智能变革

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗&#xff1f;订阅我们的简报&#xff0c;深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同&#xff0c;从行业内部的深度分析和实用指南中受益。不要错过这个机会&#xff0c;成为AI领…

蓝牙模块在电动汽车充电设施中的创新应用

随着电动汽车的普及&#xff0c;充电设施的便捷性和智能化成为关键的发展方向。蓝牙技术作为一种无线通信技术&#xff0c;在电动汽车充电设施中发挥着越来越重要的作用。本文将深入探讨蓝牙模块在电动汽车充电设施中的创新应用&#xff0c;以提高充电体验、提升管理效率&#…

vue3.2引用unplugin-auto-import插入,解放开发中import组件

目录 前言引用unplugin-auto-import插件的优缺点优点缺点 unplugin-auto-import插件引入安装插件配置vite配置更新TypeScript配置使用代码位置 总结 前言 是否添加unplugin-auto-import取决于项目需求和团队习惯。如果项目中频繁使用Vue相关API&#xff0c;并且团队成员都熟悉这…

MulticoreWare与Imagination一同按下汽车计算工作负载的“加速键”

中国北京 – 2024年1月8日 - MulticoreWare Inc与Imagination Technologies共同宣布已在德州仪器TDA4VM处理器上实现了GPU计算&#xff0c;不仅使算力提升了约50 GFLOPS&#xff0c;而且还实现了自动驾驶和高级驾驶辅助系统&#xff08;ADAS&#xff09;常见工作负载性能的跃升…

使用Docker部署PDF多功能工具Stirling-PDF

1.服务器上安装docker 安装比较简单&#xff0c;这种安装的Docker不是最新版本&#xff0c;不过对于学习够用了&#xff0c;依次执行下面命令进行安装。 sudo apt install docker.io sudo systemctl start docker sudo systemctl enable docker 查看是否安装成功 $ docker …

前端项目由nginx迁移到apache httpd

前端项目由nginx迁移到apache httpd 前端项目存放目录为 /var/www/dist 虚拟主机端口80 反向代理拦截 /prod-api 后端服务地址 http://192.168.0.44:8097 <VirtualHost *:80>DocumentRoot /var/www/distServerName www.dist.com<Directory /var/www/dist>RewriteEn…

PCL 使用克拉默法则进行四点定球(C++详细过程版)

目录 一、算法原理二、代码实现三、计算结果本文由CSDN点云侠原创,PCL 使用克拉默法则进行四点定球(C++详细过程版),爬虫自重。如果你不是在点云侠的博客中看到该文章,那么此处便是不要脸的爬虫与GPT生成的文章。 一、算法原理 已知空间内不共面的四个点,设其坐标为 A (…