最优化学习笔记(三)——梯度下降法

     本来这周计划写下逻辑回归的学习笔记,但是其中用到了最优化对数似然函数,因此决定先复习下梯度方法和拟牛顿法。本节先从纯数学的角度总结下梯度下降法。

一、柯西-施瓦茨不等式

对于 Rn中的任意两个向量 xy, 有:

|<x,y>|||x||||y||

成立。当且仅当对于某个 αRn,x=αy

二、梯度下降法

     函数 f:RnR水平集的概念。水平集是指能够满足f(x)=c的所有x组成的集合,其中c为常数。如下图所示:

水平集示例

     如果函数fx0处的梯度f(x0)不是零向量,那么它与水平集f(x)=c中任意一条经过x0处的光滑曲线的切向量正交。在梯度方向上,自变量的细微变动,导致的目标函数值的增加幅度要超过其他任意方向。证明如下:函数 f在点x处,在方向d上的增长率为: <f(x),d>,||d||=1<script type="math/tex" id="MathJax-Element-50"><\triangledown f( \boldsymbol{x}), \boldsymbol{d}>, ||\boldsymbol{d}|| = \boldsymbol{1}</script>。由柯西-施瓦茨不等式得:

f(x),d||f(x)||

若令 d=f(x)||f(x)||,则有:
f(x),f(x)||f(x)||=||f(x)||

     因此,可以看出梯度方向 f(x)就是函数 fx处增加最快的方向。反之,梯度负方向 f(x)就是函数 fx处减少最快的方向。

     令x(0)作为初始搜索点,并沿着梯度负方向构造一个新点x(0)αf(x(0)),由泰勒定理可得:

f(x(0)αf(x(0)))=f(x(0))α||f(x(0))||2+o(α)

因此,如果 f(x(0))0, 那么当 α>0足够小时,有
f(x(0)αf(x(0)))<f(x(0))

给定一个搜索点 x(k),由此点出发,根据向量 αkf(x(k)))指定的方向和幅度运动,构造一个新点 x(k+1)αk>0,称为步长,那么迭代公式如下:
x(k+1)=x(k)αkf(x(k))

这称为梯度下降方法。在搜索过程中,梯度不断变化,当接近极小点的时候梯度应该趋于0.可以设置很小的步长,这时计算量比较大,每次梯度都要重新计算;也可以设置很大的步长,这样,计算量会小一些,但是会在极小点附近产生锯齿状的收敛路径。下面会继续总结梯度下降法中的最速下降法。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/576638.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ElasticSearch外部版本控制

#外部版本控制机制| PUT /library/books/1?version5&version_typeexternal {"title": "Elosticsearch: The Definitive Guide" ,"name":{"first" : "Zachary","last" : "Tong"},"publish_dat…

最优化学习笔记(四)——最速下降法

一、最速下降法的理念 最速下降法是梯度方法的一种实现&#xff0c;它的理念是在每次的迭代过程中&#xff0c;选取一个合适的步长αk&#xff0c;使得目标函数的值能够最大程度的减小。αk可以认为是函数ϕk(α)f(x(k)−α∇f(x(k)))的极小值点&#xff1a; αkargminf(x(k)−…

关于 win7 远程桌面的多用户问题

关于 win7 远程桌面的多用户问题 [转]系统是 64位WIN7 旗舰版 每当我用其它机器连WIN7的3389远程桌面时&#xff0c;WIN7那台机子就会退出到注销用户后的状态了&#xff0c;后来我新建了个用户&#xff0c;用不同用户登陆还是退出&#xff0c;也就是说不能同时2个人操作电脑&am…

ElasticSearch映射Mapping

1.1 什么是映射 (1) 映射(mapping): 定义index的元数据, 指定要索引并存储的文档的字段类型. 也就是说映射决定了Elasticsearch在建立倒排索引、进行检索时对文档采取的相关策略, 如数字类型、日期类型、文本类型等等. 需要注意的是: 检索时用到的分析策略, 要和建立索引时的分…

机器学习笔记(十)——Logistic Function AND Softmax Function

一、说明 在逻辑回归和一些机器学习算法中&#xff0c; Logistic函数和Softmax函数是常用到的&#xff0c;今天就先讨论下这两个函数。 二、Logistic Function Logistic function一般用于二分类问题&#xff0c;它的函数定义如下&#xff1a; f(x)11e−x(1)f(x) = \frac{1}{1…

2012开博

2012是一个新的开始&#xff0c;希望学习更多的新技术&#xff0c;结交更多的新朋友。也将自己的技术博客转到博客园来!转载于:https://www.cnblogs.com/yangjun1120/archive/2012/01/30/2332111.html

kibana客户端工具操作ElasticSearch(增删改查三)

之前一直我们讲的是添加文档和查看文档&#xff0c;下面我们看下怎么修改文档&#xff0c; 第一种方式PUT 覆盖原来的文档 修改文档&#xff08;覆盖原来的&#xff09;&#xff1a; PUT /lib/user/1 {"first_name":"Jane","last_name":"…

Word2Vec学习笔记(一)

目录 Word2Vec基本数学内容语言模型Hierarchical Softmax 模型Negative Sampling 模型 一、Word2Vec基本数学内容 1. Sigmod 函数 &absp;&absp;&absp;&absp;Sigmod函数通常在二分类中应用。它将样本映射后投影在[0, 1]范围内&#xff0c;对应样本所属的类的…

SQL Tuning Advisor简单使用

SQL Tuning Advision是Oracle提供的一个功能包&#xff0c;可以针对有性能问题的SQL给出优化建议。可以作为调优的辅助手段。 建立测试表和索引create table t_1 as select * from dba_objects;create table t_2 as select * from dba_tables;create index idx_t_2_ts on t_2(t…

Multi GET API介绍

#先添加几个文档 PUT /lib/user/1 {"first_name":"Jane","last_name":"Smith","age":36,"about":"I like to collect rock albums","interests":["music"] }PUT /lib/user/2 {&qu…

Word2Vec学习笔记(二)

二、语言模型 语言模型可以分为文法型模型和统计语言模型。在实际应用中语言识别、手写体文字识别、机器翻译、键盘输入、信息检索等研究领域都用到了语言模型。文法型语言模型是人工编制的语言学文法&#xff0c;文法规则来源于语言学家掌握的语言学知识和领域知识&#xff0c…

echo中使用逗号和句号的区别

echo中是可以用逗号来连接字符串的.经过测试.这样的连接字符串方式要比直接用点号要快. //PHP是先连接字符串再进行加法计算了.按照从左向右的方向进行的。//如果将一个字符串强制转换成一个数字.PHP会去搜索这个字符串的开头.如果开头是数字就转换.如果不是就直接返回0echo 51…

Multi GET  API

Multi GET API介绍 GET /lib/user/_mget {"docs":[{"_id":1},{"_type":"user","_id":2}] } #返回值 {"docs" : [{"_index" : "lib","_type" : "user","_id&qu…

Word2Vec学习笔记(三)

三、Hierarchical Softmax模型 3.1 词向量 词向量目前常用的有2种表示方法&#xff0c;One-hot representation 和 distributed representation. 词向量&#xff0c;顾名思义就是将一个词表示为向量的形式&#xff0c;一个词&#xff0c;怎么可以将其表现为向量呢&#xff1f;…

Thrift 教程 开发 笔记 原理 资料 使用 范例 示例 应用

在这里汇总一下&#xff1a;thrift版本差异和源码及jar包下载。文档&#xff0c;示例(脚本、代码、)&#xff0c;白皮书&#xff0c;常见问题。 有很内容是重复的&#xff0c;给位看官自行过滤。 英文资料 API 使用介绍 原理简介(推荐阅读) 和 简单范例 IBM developerWorks 详细…

Bulk API实现批量操作

Bulk 批量操作 &#xff08;1&#xff09; 比如&#xff0c;我这里&#xff0c;在$ES_HOME里&#xff0c;新建一文件&#xff0c;命名为requests。&#xff08;这里为什么命名为request&#xff0c;去看官网就是&#xff09;在Linux里&#xff0c;有无后缀没区别。 1 2 3 4 5…

Word2Vec学习笔记(三)续

三、&#xff08;续&#xff09;Skip-gram模型介绍 Skip-gram模型并不是和CBOW模型相反的&#xff0c;它们的目的都是计算出词的向量&#xff0c;只不过在作者的论文中给出的图看样子是反的而已。Skip-gram模型是用每个当前词去预测一定范围内除当前词之外前后的词。同样的&…

三省吾身

自尊心极强&#xff0c;极其自信又极其自卑极其理性又极其感性&#xff0c;平时把自卑隐藏在自信中&#xff0c;因为自卑和感性易冲动发火脾气暴躁&#xff0c;性格非常矛盾。知己知彼。 成熟包容宽恕平和气定神闲。 每日看此&#xff0c;三省吾身。 一定要宽容&#xff0c;如果…

我的博客开通了

一直都比较关注博客园&#xff0c;也一直很想写博客&#xff0c;最近几年发现自己做了很多项目&#xff0c;但好多东西没有很多的积累下来&#xff0c;每次都要从网上搜索别人的东西&#xff0c;感觉太失败&#xff01; 从今天开始&#xff0c;我也要做一个有故事的程序员&…

ElasticSearch关于映射mapping介绍

#首先我们还是先增加几个文档 PUT /myindex/article/1 {"post_date": "2020-03-14","title": "Java","content": "java is the best language","author_id": 119 }PUT /myindex/article/2 {"post…