Deep Learning(深度学习) 学习笔记(四)

神经概率语言模型,内容分为三块:问题,模型与准则,实验结果。[此节内容未完待续...]


1,语言模型问题

      语言模型问题就是给定一个语言词典包括v个单词,对一个字串做出二元推断,推断其是否符合该语言表达习惯。也就是的取值为0或者为1。

       概率语言模型放松了对取值的限制,让其在0~1之间取值(语言模型 v.s 概率语言模型),而且全部的字串的概率之和为1。维基百科对于概率语言模型的解释为:是借由一个概率分布,而指派概率给字词所组成的字串。可是须要注意的是直接对进行求其概率分布是不现实的,由于理论上这样的字串数量是无限的。直接求其概率分布会导致维度灾难。

    为了解决这个问题,首先引入链式法则(chain rule),觉得字串中第i个字符出现的概率是由其前面i-1个字符决定的。这样就有例如以下公式: 

                                               

    可是,有了这个公式还是太复杂了。继续引入如果简化公式,觉得字串中第i个字符出现的概率是由其前面n-1个字符决定(也就是如果)的。这样公式就继续被简化:

                                               

    模型如今就变得非常easy了,就是计算条件概率。也就是须要计算给定字串后,字典中的每一个字出现的概率


2. 模型与准则

  2.1 数据 给定一些标记号的样本.

  2.2 模型

  

                                              图1. 模型图解

                                              图片来自:http://licstar.net/archives/328

    建模步骤

    2.2.1 查表:将输入的单词,通过查表(图1中Table look-up过程)将单词映射为m维的词向量。此处的所查的表并非给定的,是在模型学习中获得的附加产物(也就是word2vec产生的那些向量玩意)。

    2.2.2 线性变换:将2.2.1中的n-1个m维度的向量通过首尾拼接的方式线性变换成为(n-1)*m维的向量。也就是在中间那个tanh层输入处(以下)全部分向量C(w)合并为一个大的维度为(n-1)*m的向量[Mikolov的RNNLM在此做出改变:不只只看n-1个单词的信息,而是看该词前面全部的单词信息]。

    2.2.3 非线性变换:在中间那个tanh层处进行非线性变换。这里须要的是一个变换矩阵和偏置矩阵。也就是对于中间那一层(tanh所在的那一层),该层的输入是(n-1)*m的向量,输出是。经过线性变换后,先前的(n-1)*m维的向量成为了h维的向量。

    2.2.4 输出处理:在最后一层(softmax层)进行处理输出。这里须要一个变换矩阵和一个偏置矩阵。最后输出就是。注意到最后输出的是一个v维度的向量,和我们的第一节中词典D的维度是一致的。向量中每个维度相应的实数就是输出该单词的概率。

     

    2.3 准则

    对全部的训练样本,其准则为使取最小,此处为正则项。能够使用梯度下降法进行求取。

  

    模型中须要人工设定的參数是模型的元数n,词向量的维度m,隐层的输出维度h。

    须要模型优化的參数:变换矩阵W和H,偏置矩阵d和b,查表所使用的词向量表都是须要优化的參数,也就是我们所求取的參数。

  

    3.实验结果

    语言模型困惑度。模型困惑度是用来评价不同的语言模型好坏的一种方法(另一种方法是Word Error Rate,Mikolov的博士论文《Statistical Language Models based on Neural Networks》博士论文对这两种方法有介绍和比較)。给定測试数据集合,模型在该測试集合上的困惑度越小越好。

    測试集合一:

    Brown Corpus,共计118w单词,当中80w训练,20w验证,其它18w作为測试集合。

    在n=5,m=30,h=100时候NNLM的PPL为270。该測试集合眼下最好的n-gram模型(n=3)的PPL为312。设置权重进行模型融合后的PPL为252。

    測试集合二:

    AP News,共计1600w词,当中1400w训练,100w验证,其它100w作为測试集合。

    在n=6,m=100,h=109时候NNLM的PPL为109。该測试集合眼下最好的n-gram模型的PPL为117。

   

网上学习资料:

关于神经网络语言模型的博客:点击打开链接

Mikolov的博士论文《Statistical Language Models based on Neural Networks》 关于n-gram语言模型的评价是简单有用(N-gram models are today still considered as state of the art not because there are no better techniques, but because those better techniques are computationally much more complex, and provide just marginal improvements, not critical for success of given application.),模型的关键就是选择n值和平滑技术。其固有缺点例如以下:

        第一,n-gram模型的n值无法取大。由于模型n-gram片段的数量会随着n值的变大指数增长。这一点就决定了n-gram模型无法有效的利用更长的上下文信息。特殊的,当被提供海量训练语料时,n-gram模型也无法有效捕捉一些长距离的语言现象。

       第二,即使n值能够取得比較大,n-gram无法有利用长距离的上下文信息。比如,有一个句子The sky above our heads is bleu. 这句话里面单词 bleu对单词sky有着非常强的依赖关系,无论这两个单词中间插入多少变量都不会破坏这样的关系。比如The sky this morning was bleu. 可是对n-gram模型,即使放开n值的限制,取一个较大的n值,也无法有效地捕捉这样的长距离的语言现象。

        第三,n-gram模型无法高效的对相似的词语进行辨别。比如:训练语料中存在Party will be on Monday.Party will be on Tuesday. 模型无法对类似Party will be on Friday.的句子赋予较高的概率。尽管我们人可以清楚知道“Monday”,"Tuesday","Friday"这些是类似的概念,可是只对字面进行建模的n-gram无法辨别。



转载于:https://www.cnblogs.com/mengfanrong/p/3933759.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/258258.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

JavaScript 运行机制

JavaScript 运行机制 阅读目录 一、为什么JavaScript是单线程?二、任务队列三、事件和回调函数四、Event Loop五、定时器六、Node.js的Event Loop七、关于setTimeout的测试一、为什么JavaScript是单线程? JavaScript语言是单线程,也就是说&am…

android自定义倒计时控件示例

这篇文章主要介绍了Android秒杀倒计时自定义TextView示例,大家参考使用吧 自定义TextView控件TimeTextView代码: 复制代码 代码如下:import android.content.Context;import android.content.res.TypedArray;import android.graphics.Paint;import andro…

从gitlab上拉代码_从gitlab上拉取代码并一键部署

一、gitlab安装GitLab是一个利用Ruby on Rails开发的开源应用程序,实现一个自托管的Git项目仓库,可通过Web界面进行访问公开的或者私人项目。GitLab拥有与Github类似的功能,能够浏览源代码,管理缺陷和注释。可以管理团队对仓库的访…

产品管理流程

转载于:https://www.cnblogs.com/candle806/p/4860841.html

如何根据灰度直方图计算标准差_如何根据电器功率计算电线的粗细?

一般来说,测算电线的粗细,需要根据功率计算电流,根据电流选择导线截面,根据导线的截面,导线或电缆的型号查厂家的该型号的导线电缆的直径。这里就涉及了:电线粗细与功率之间的关系计算;导线截面…

解惑烟草行业工控系统如何风险评估

上周五下午,威努特工控安全联合创始人 赵宇 先生,带来了一场关于“工控系统的风险评估”的技术讲座。此次近200注册报名的朋友,来自各大高校、国企、外企、测评中心、安全厂商、大型集成商以及大型IT科技企业、安全实验室等。 烟草企业调研参…

UVa 11806 Cheerleaders

题意:m行n列的矩形网格放k个相同的石子,要求第一行最后一行第一列最后一列都必须有石子,问有多少种放法 A为第一行没有石子的方案数,BCD依此类推,全集为S 如果没有任何要求的话,放法数应该是C(rc, k) 解法中…

为什么说一站式移动办公SaaS平台一定是未来!

摘要:移动办公SaaS之间的核心竞争不在于比拼技术,而在于谁更好地与企业管理和文化相互融合,给企业带来更加年轻、更加高效的工作方式,实现了企业组织的互联网化。 没有哪个企业愿意当诺基亚,“并没有做错什么&#xff…

server sql 将出生日期转为年龄_在sql server表中有一个出生日期字段我怎么才能在当前年份改变时自动更新年龄字段...

先说明下identity(1,1):自动1foreign key 外键语法create database ztxuse ztxCreate Table QAUser--baidu用户资料(Id int Primary Key not null identity(1,1),--自动编号,也同时用于对用户的标示符QA_name varchar(20),--用户名Sex char(2),--或者使用bit类型,但…

自动裁剪图片

自动裁剪商品图片View Code执行裁剪指定目录商品图片动作///<summary> ///执行指定目录商品图片动作 ///</summary> public static void FindPictureDoCutIt(object o) {string filePatho.ToString();try{DirectioryInfo fatherFolder new DirectioryInfo(filePat…

32位oracle_oracle 性能调优

pool&#xff0c;sga&#xff0c;pga的配置 物理内存16G在调整SGA前&#xff0c;先看下服务器操作系统是32位还是64位的&#xff0c;如果是32位的&#xff0c;则SGA最大不能超过1.7G&#xff0c;如果是64位的&#xff0c;则不能超过4G。基本分配原则&#xff0c;db_block_buffe…

看网络电子围栏如何做好周界安防

围栏是为了保护一定范围内的任何物遭到侵害而设立的一个屏障&#xff0c;在一定程度上有保护的作用&#xff0c;但是也不能完全阻止。传统的围栏以加高或者添加危险触碰物来增加安全性&#xff0c;但是会影响美观&#xff0c;不能进行主动击退&#xff0c;也给围栏内人物带来不…

Objective-C语法之代码块(block)的使用

代码块本质上是和其它变量相似。不同的是&#xff0c;代码块存储的数据是一个函数体。使用代码块是&#xff0c;你能够像调用其它标准函数一样&#xff0c;传入參数数&#xff0c;并得到返回值。脱字符&#xff08;^&#xff09;是块的语法标记。依照我们熟悉的參数语法规约所定…

卓越管理的实践技巧(1)如何进行有效的指导 Guidelines for Effective Coaching

Guidelines for Effective Coaching 前文卓越管理的秘密&#xff08;Behind Closed Doors&#xff09;最后一部分提到了总结的13条卓越管理的实践技巧并列出了所有实践技巧名称的索引&#xff0c;这篇文章主要写卓越管理的实践技巧的第&#xff08;1&#xff09;条&#xff1a;…

count返回0_你是一直认为 count(1) 比 count(*) 效率高么?

MySQL count(1) 真的比 count(*) 快么? 反正同事们都是这么说的&#xff0c;我也姑且觉得对吧&#xff0c;那么没有自己研究一下究竟&#xff1f;如果我告诉你他们一样&#xff0c;你信么&#xff1f;有 Where 条件的 count&#xff0c;会根据扫码结果count 一下所有的行数&am…

dbeaver连接mysql失败_关于DBeaver连接MySQL数据库遇到的版本问题解决

在使用DBeaver连接MySQL数据库时&#xff0c;明明按照它提示进行jar包的下载&#xff0c;但是仍然报错&#xff0c;提示版本问题&#xff0c;那么这个时候我们要解决的就是MySQL版本对应驱动包的问题。笔者经过测试后有了一些心得&#xff0c;放上来希望对大家能够有所参考。首…

【WIN10】VisualStateManager使用說明

Demo下載&#xff1a;http://yunpan.cn/cFjgPtWRHKH9H 访问密码 c4b7 顧名思義&#xff0c;視圖狀態管理器。 在WPF中&#xff0c;它的功能似乎更強大。在UWP中&#xff0c;閹割了GotElementState方法&#xff0c;導致它只能在控件內部使用。 這個東東一般用來突出某些操作&am…

Hadoop伪分布配置与基于Eclipse开发环境搭建

国内私募机构九鼎控股打造APP&#xff0c;来就送 20元现金领取地址&#xff1a;http://jdb.jiudingcapital.com/phone.html内部邀请码&#xff1a;C8E245J &#xff08;不写邀请码&#xff0c;没有现金送&#xff09;国内私募机构九鼎控股打造&#xff0c;九鼎投资是在全国股份…

百度地图JavaScript API覆盖物旋转时出现偏移

在项目中&#xff0c;调用百度地图JavaScript API&#xff0c;做覆盖物的旋转再添加到地图上&#xff0c;结果出现偏移了。 调试过程中的效果图&#xff1a; 发现图片的旋转并不是按车子的中心来的&#xff0c;而是之外的一个点。最后发现犯了一个很细节的错&#xff1a; <s…

英利1500伏光伏组件系列亮相美国

2016年4月21日&#xff0c;英利宣布其公用事业规模太阳能光伏生产线YGE-U1500系列亮相美国。 近日&#xff0c;美国保险商实验室&#xff08;UL&#xff09;对新型光伏板系列进行认证&#xff0c;可用于最大系统电压为1500伏的项目。 部署英利多晶硅YGE-U 1500光伏组件系列可为…