CS224n笔记3 高级词向量表示

CS224n笔记3 高级词向量表示

news/2025/7/13 5:28:25/文章来源:https://blog.csdn.net/weixin_30521161/article/details/98352721

本文转自：http://www.hankcs.com/nlp/cs224n-advanced-word-vector-representations.html

这节课从传统的基于计数的全局方法出发，过渡到结合两者优势的GloVe，并介绍了词向量的调参与评测方法。

复习：word2vec的主要思路

遍历整个语料库中的每个词
预测每个词的上下文：
然后在每个窗口中计算梯度做SGD

SGD与词向量

　　但每个窗口最多只有2m + 1个单词，所以∇θJt(θ)

hankcs.com 2017-06-08 下午3.33.16.png

　　实际上有正确答案需要去对比的只有窗口中的词语。所以每次更新只更新W

hankcs.com 2017-06-08 下午3.39.45.png

近似：负采样

　　还有一个问题亟待解决，词表V的量级非常大，以至于下式的分母很难计算：

hankcs.com 2017-06-08 下午3.25.31.png

　　于是，练习1中要求用negative sampling实现skip-gram。这是一种采样子集简化运算的方法。

　　具体做法是，对每个正例（中央词语及上下文中的一个词语）采样几个负例（中央词语和其他随机词语），训练binary logistic regression（也就是二分类器）。

negative sampling和skip-gram

　　目标函数：

　　这里t

　　

　　根据上次课讲的，内积可以代表相关性。那么这个目标函数就是要最大化中央词与上下文的相关概率，最小化与其他词语的概率。

　　word2vec通过把相似的词语放到同一个地方附近来增大目标函数：

hankcs.com 2017-06-08 下午4.45.25.png

其他方法

　　word2vec将窗口视作训练单位，每个窗口或者几个窗口都要进行一次参数更新。要知道，很多词串出现的频次是很高的。能不能遍历一遍语料，迅速得到结果呢？

　　早在word2vec之前，就已经出现了很多得到词向量的方法，这些方法是基于统计共现矩阵的方法。如果在窗口级别上统计词性和语义共现，可以得到相似的词。如果在文档级别上统计，则会得到相似的文档（潜在语义分析LSA）。

基于窗口的共现矩阵

比如窗口半径为1，在如下句子上统计共现矩阵：

I like deep learning.
I like NLP.
I enjoy flying.

会得到：

hankcs.com 2017-06-08 下午5.00.43.png

朴素共现向量的问题

根据这个矩阵，的确可以得到简单的共现向量。但是它存在非常多的局限性：

当出现新词的时候，以前的旧向量连维度都得改变
高纬度（词表大小）
高稀疏性

解决办法：低维向量

　　用25到1000的低维稠密向量来储存重要信息。如何降维呢？

　　SVD吧：

hankcs.com 2017-06-08 下午5.10.35.png

　　r维降到d维，取奇异值最大的两列作为二维坐标可视化：

hankcs.com 2017-06-08 下午5.11.36.png

改进

限制高频词的频次，或者干脆停用词
根据与中央词的距离衰减词频权重
用皮尔逊相关系数代替词频

效果

　　方法虽然简单，但效果也还不错：

hankcs.com 2017-06-08 下午5.17.13.png

hankcs.com 2017-06-08 下午5.17.27.png

hankcs.com 2017-06-08 下午5.17.45.png

SVD的问题

不方便处理新词或新文档
与其他DL模型训练套路不同

Count based vs direct prediction

　　这些基于计数的方法在中小规模语料训练很快，有效地利用了统计信息。但用途受限于捕捉词语相似度，也无法拓展到大规模语料。

　　而NNLM, HLBL, RNN, Skip-gram/CBOW这类进行预测的模型必须遍历所有的窗口训练，也无法有效利用单词的全局统计信息。但它们显著地提高了上级NLP任务，其捕捉的不仅限于词语相似度。

综合两者优势：GloVe

　　这种模型的目标函数是：　　　　　　　　　　

hankcs.com 2017-06-08 下午7.22.15.png

　　优点是训练快，可以拓展到大规模语料，也适用于小规模语料和小向量。

　　明眼人会发现这里面有两个向量u

　　相对于word2vec只关注窗口内的共现，GloVe这个命名也说明这是全局的（我觉得word2vec在全部语料上取窗口，也不是那么地local，特别是负采样）。

评测方法

　　有两种方法：Intrinsic（内部） vs extrinsic（外部）

　　Intrinsic：专门设计单独的试验，由人工标注词语或句子相似度，与模型结果对比。好处是是计算速度快，但不知道对实际应用有无帮助。有人花了几年时间提高了在某个数据集上的分数，当将其词向量用于真实任务时并没有多少提高效果，想想真悲哀。

　　Extrinsic：通过对外部实际应用的效果提升来体现。耗时较长，不能排除是否是新的词向量与旧系统的某种契合度产生。需要至少两个subsystems同时证明。这类评测中，往往会用pre-train的向量在外部任务的语料上retrain。

Intrinsic word vector evaluation

　　也就是词向量类推，或说“A对于B来讲就相当于C对于哪个词？”。这可以通过余弦夹角得到：

hankcs.com 2017-06-08 下午9.00.00.png

　　我曾经通过这些方法验证了民间很多流行的word2vec实现准确率比原版低几十个百分点：http://www.hankcs.com/nlp/word2vec.html#h2-15

　　这种方法可视化出来，会发现这些类推的向量都是近似平行的：

hankcs.com 2017-06-08 下午9.03.18.png

hankcs.com 2017-06-08 下午9.03.35.png

　　下面这张图说明word2vec还可以做语法上的类比：

hankcs.com 2017-06-08 下午9.05.55.png

其他有趣的类比：

hankcs.com 2017-06-08 下午9.06.35.png

　　这在数学上是没有证明的。

结果对比

在不同大小的语料上，训练不同维度的词向量，在语义和语法数据集上的结果如下：

hankcs.com 2017-06-08 下午9.13.47.png

　　GloVe的效果显著地更好。另外，高纬度并不一定好。而数据量越多越好。

调参

　　窗口是否对称（还是只考虑前面的单词），向量维度，窗口大小：

hankcs.com 2017-06-08 下午9.20.11.png

　　大约300维，窗口大小8的对称窗口效果挺好的，考虑到成本。

　　对GloVe来讲，迭代次数越多越小，效果很稳定：

hankcs.com 2017-06-08 下午9.24.05.png

　　维基百科语料上得到的效果比新闻语料要好：

hankcs.com 2017-06-08 下午9.26.26.png

另一个数据集

　　还有直接人工标注词语相似度的：

hankcs.com 2017-06-08 下午9.29.01.png

www.cs.technion.ac.il/~gabr/resources/data/wordsim353/

　　对某个单词相似度排序后，得到最相关的词语。于是可以量化评测了。

hankcs.com 2017-06-08 下午9.31.22.png

Extrinsic word vector evaluation

　　做NER实验：

hankcs.com 2017-06-08 下午9.38.12.png

　　GloVe效果依然更好，但从数据上来看只好那么一点点。

　　视频中还谈了谈一些适合word vector的任务，比如单词分类。有些不太适合的任务，比如情感分析。课件中则多了一张谈消歧的，中心思想是通过对上下文的聚类分门别类地重新训练。

hankcs.com 2017-06-08 下午9.47.56.png

　　相同颜色的是同一个单词的不同义项。

　　TA也讲过这个问题。

转载于:https://www.cnblogs.com/koocn/p/7699051.html

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/467501.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

C# 2.0对现有语法的改进

C# 2.0对现有语法的改进

C# 2.0对现有语法的改进原注：lover_P出处： [自序] 尽管Microsoft Visual Studio .NET 2005（过去好像叫Visual Studio .NET 2004）一再推迟其发布日期，但广大开发者对其的猜测以及各种媒体对其各方面的“曝光”也似乎已…

阅读更多...

一个java类运行时从哪个方法开始_Java的应用程序是从类中的

一个java类运行时从哪个方法开始_Java的应用程序是从类中的

【填空题】还不走,车来了。【填空题】进路是运行时所经由的路径。【单选题】()是仿照法国巴黎圣母院设计建造的:【简答题】结合你学习的感受,你认为会计核算程序三大会计要素顺序可以颠倒吗?【填空题】一往无前马当先。【听力题】【判断题】企业所得税是直接税,其纳税人与负税…

阅读更多...

C# 第一章笔记

C# 第一章笔记

目录：硬盘 - 工具软件 - 编程开发 - Visual Studio软件：序列号、安装包、魔方虚拟光驱(win7) Visual Studio 2013.exeVisual Studio 2013.msiVisual Studio 2013.iso光盘 -> 光驱光盘镜像文件 -> 虚拟光驱 Win7安装会警告：您当前系统IE…

阅读更多...

一粒老鼠屎

一粒老鼠屎

我又老生常谈了。本来很久都不去CSDN看文档的评论了。但是今天忍不住又瞄到了几眼，一看那些不屑的，骂人的腔调的评论，就心里堵得难受。CSDN的blog现在可想而知，当应很热闹。但透明和曾毅还有我都没有去用它的blog，我想…

阅读更多...

我在深圳，但是家里托人在老家找了一份工作

我在深圳，但是家里托人在老家找了一份工作

最近，在微信公众号后台收到一份读者的留言，而且这位读者也是我们GX的，而且更幸运的是，跟我是一个地方的。她是疑惑如下~前辈你好~ 今天看到最新一篇有关读书的推文发现同是HC老乡，斗胆向您请教一些问题，有点…

阅读更多...

Django之项目搭建和配置总结（一）

Django之项目搭建和配置总结（一）

安装和创建虚拟环境参考：linux系统下Python虚拟环境的安装和使用安装Django包先进入虚拟环境，在联网下执行：pip install django1.8.7 1.8.7表示django的版本，如果不指定，会默认安装最新版的django。包会被安装到/usr…

阅读更多...

java长连接例子_java实现长连接

java长连接例子_java实现长连接

();public Client(String serverIp, int port) {this.serverIpserverIp;this.portport;}public void start() throws UnknownHostException, IOException {if(running)return;socket new Socket(serverIp,port);System.out.println("本地端口："socket.ge…

阅读更多...

怎么把一个bool数组转成char?

怎么把一个bool数组转成char?

这个是在知乎上看到的问题，分享给大家，如果有不同的答案，欢迎评论回复。知乎惯例谢邀人在厕所，刚刚蹲下因为最近都流行长文，但是作为日更而且更喜欢表达自己看法的我，力争文章是自己想发的，而且…

阅读更多...

日本語勉強資源

日本語勉強資源

ウェブ頁注音　http://www.hiragana.jp/ （看新闻学背单词容易多了）通訳　http://www.excite.co.jp　（单词／句子／网页翻译）

阅读更多...

mysql的高阶用法_MySQL的经典用法(十四)-高级优化

mysql的高阶用法_MySQL的经典用法(十四)-高级优化

mysql的经典用法(十四)----高级优化基于/application/search/mysql/mysql-5.5.28/support-files/my-innodb-heavy-4G.cnf二次优化【删除--如果不使用主从同步】注释，去除无用日志文件# log-binmysql-bin# binlog_formatmixed【修改链接】# 最大链接值从100增加到512…

阅读更多...

Kotlin——初级篇（二）：变量、常量、注释

Kotlin——初级篇（二）：变量、常量、注释

在Kotlin中的变量、常量以及注释多多少少和Java语言是有着不同之处的。不管是变量、常量的定义方式，还是注释的使用。下面详细的介绍Kotlin中的变量、常量、注释的使用。以及和Java的对比。如果您还没有搭建环境和不了解Kotlin的，请看我的上一篇博文Kot…

阅读更多...

java调用sql返回list_Spring JdbcTemplate实现有java.sql.ResultSet结果集返回的存储过程调用 | 学步园...

java调用sql返回list_Spring JdbcTemplate实现有java.sql.ResultSet结果集返回的存储过程调用 | 学步园...

一、调用存储过程方式一：/*** 方法功能说明：通过存储过程分页，获取分页信息以及查询记录(装在list中)；* List.get(0) hsTable; //存放分页信息(tableName/token/pageNo/pageSize/recordsCount/pagesCount)--hsTable.get(key)* Lis…

阅读更多...

今天研究了一下关于Asp.net文件上传时的内存消耗问题

今天研究了一下关于Asp.net文件上传时的内存消耗问题

晕啊，写了半天，突然间所有的格式都没了，我不得不在写字板中重新排版，DuDu哥，你还是快捷键都去掉吧。简单研究了一下如何解决Asp.net连续上传文件时对内存占用越来越多的问题。但目前只能解决一部份问题，要…

阅读更多...

Linux系统编程-管道入门

Linux系统编程-管道入门

晚上好，继续记录我的学习心得。当你厌倦了自己的目标时，怎样继续保持专注？误区：成功人士说的都是自己如何“满怀热情”去努力实现他们的目标。不管是在商业、体育还是艺术界，我们听到的都是“一切都归结于激情”或者“…

阅读更多...

JavaScript 基础，登录前端验证

JavaScript 基础，登录前端验证

1、<script></script>的三种用法： 1.放在<body>中 2.放在<head>中 3.放在外部JS文件中 2、三种输出数据的方式： 1.使用 document.write() 方法将内容写到 HTML 文档中。 2.使用 window.alert() 弹出警告框。 3.使用 innerHTML 写…

阅读更多...

Meta的用法

Meta的用法

----------------------------------------------- ? 这就是meta标签的典型运用。meta标签有多少参数，有什么作用，为什么我们要特别重视它呢？让我们一起来发掘meta标签的奥妙! ? 根据HTML语言标准注释：meta标签是对网站发展非常…

阅读更多...

iOS10 打开APP设置界面和WIFI界面

iOS10 打开APP设置界面和WIFI界面

在iOS10以上，权限这块有了一些变化首先在info的URL Types 添加 prefs 1、打开APP设置界面 //打开设置let url:NSURL NSURL(string: UIApplicationOpenSettingsURLString)!if UIApplication.shared.canOpenURL(url as URL){ UIApplication.shared.openURL(url as…

阅读更多...

一种简单、实用的测量程序运行时间的方法

一种简单、实用的测量程序运行时间的方法

前言平时我们可能很少去关注程序运行的时间，但是在一些情况下可能需要对程序进行一个整体的复盘、优化。那么，程序运行的时间就是一个可以考虑的方面，可以测一下某些代码块、函数、算法的运行时间，然后整体考虑看看有没有必要进行…

阅读更多...

可以这样给DataGrid加个序号列。

可以这样给DataGrid加个序号列。

先给DataGrid加个绑定列，该列设置页眉文本，但“数据字段”留空，然后在ItemDataBound事件中加入下面代码。 privatevoiddgScore_ItemDataBound(objectsender, System.Web.UI.WebControls.DataGridItemEventArgs e) { …

阅读更多...

工作几天被裁员，难受

工作几天被裁员，难受

前两天，一个读者朋友私聊我说，自己被公司裁员了，这是他的第一份工作，只工作了不到半个月就收到了裁员信息。他非常不甘心，也非常恐慌，不甘心的是，自己觉得工作已经非常努力，也有做出…

阅读更多...

最新文章