人在斯坦福,刚上CS224n

文 | Jazon

大家好,我是Jazon,现在是Stanford计算机硕士项目的一只学生,非常荣幸加入小夕的大家庭!请各路大神多多指教呀。

2021年1月12日,又一季Stanford CS224n——自然语言处理开课了,我和很多MSCS同学一起加入了这门课。由于疫情,今年的课程是以线上Zoom的方式进行,由 Prof. Manning 在他的书房远程授课。第一节课的Zoom有400多位同学参加,足见这门课有多么火爆。如果是线下授课的话,肯定能把教室挤爆。

彼时的Stanford微信和Slack群里十分热闹,大家都在各种找课友、队友。上这门课的主力军是硕士生,当然也有本科生和博士生。能在Stanford亲身体验这门传说中的神课,有一种朝圣的感觉,感觉特别幸运!

课程新设置

今年的课程设置,和2019年版的公开课相比,有不少小变化,这也反映了NLP领域发展之快。具体不同的地方,我会在下文里穿插着介绍~所有的课件都在课程网站(cs224n.stanford.edu)上,而今年Lecture的录播视频在几个月后也会在YouTube上公开,到时候大家就可以看到全新的Lectures啦!

前半学期的课程由10次Lecture和5个作业组成,覆盖NLP和神经网络的核心概念,如词向量、RNN、梯度下降等。第8节课是Final Projects的建议。

后半学期的第11 ~ 18次Lectures则主要是“嘉宾讲座”(Guest Lectures),如T5的提出者Colin Raffel来讲了T5,又或者是一些选学的话题,如 Coreference Resolution。不强制上课,没有什么作业,这样可以让我们专心做Project。

特别值得提及的是今年的第9、10节课,Transformers和预训练模型首次进入了核心概念的部分,而不是像以前那样属于选听的嘉宾讲座。授课人是今年224n的Head TA(总助教)——John Hewitt。John是Stanford NLP组的博三学生,讲得真的非常棒!以前我看paper看不懂的 TransformerBERT,他讲得真的是深入浅出,我很快就明白了。

▲BERT Lecture

重磅新作业

和前10次讲座相辅相成的是这门课的5次作业。作业1里大家简单探索了词向量的性质;作业2里我们推导了训练词向量的公式(这是这节课最calculus-intensive的作业);作业3算是唯一一个涉及比较传统的语言学概念与算法的作业,是关于 Dependency Parsing(依存句法分析)的。

前3次作业都和去年的一致,作业4和5则是今年新出的。在这里要感谢出作业的TA们!作业4仍然是要搭建一个机器翻译模型,只是目标语言变成了Cherokee(美国原住民的语言之一)。这次作业的编程部分,让我们熟悉了PyTorch模型里的各种Tensor操作。

作业5是今年紧跟NLP大趋势,“重磅”新推出的:在数学部分,我们探索了Multi-head Attention的性质;在编程部分,我们需要复现一些预训练数据处理的代码(span corruption),以及实现Attention的一个变种。

这次作业出乎大家意料地难,我和不少同学们都至少花了25小时才做完。由于是今年首次发布,作业里还有很多说得不清楚的地方,本来Instruction已经9页纸了,TA们又写了一篇很长的Clarification。

那一周我们还需要提交Project Proposal,所以大家都很爆炸。2月20号早上,作业已经截止了一天,Office Hours却排起了可怕的50人长队。这门课的学生总数是475,可想而知有多大比例的同学没能按时写完,不得不用late days。

作业5的主要作者正是我们的John,据说他本来还想让我们 Encoder-Decoder 也自己写,被其他TA制止了。显然,他严重高估了同学们的实力,对这次失控的局面,他的心里也十分愧疚,一直守在论坛、Office Hours上回答同学们的问题。这也许印证了,特别优秀的人,对别人也会有意无意地设定很高的标准吧!

当然,做完作业5也让我收获很多,作业里我们需要分别训练一个“vanilla”模型和预训练模型、比较结果,于是我对预训练的效果、性质有了更直观的了解。

▲狂肝作业5的时刻

224n是怎么来的?

话说斯坦福一年有4个学期,这么火的课为什么只有冬季学期开呢?这里我想偏个题,讲讲我校NLP组的特点。Chris Manning教这门课已经20多年了,他算是NLP领域开山鼻祖级别的人物,224n课程材料里有讲到他自己发明的技术(比如 GloVe),这是件很神奇的事!

但显然,他是位大忙人,手下有十几位PhD学生,没有精力每学期都教NLP。Stanford NLP组另外3位主要的教授可能也没有时间来教224n:Dan要教CS124(低阶NLP课),Percy要教CS221(人工智能),Potts要教CS224U(自然语言理解)。

Stanford NLP组只有4 ~ 7位教授,相比之下,CMU的LTI(Language Technologies Institute)有30位教授,其中不少大方向都是做NLP的科研,人手要多得多。因此CMU在NLP方面的课程多样得多,除了NLP以外,机器翻译、问答系统、搜索引擎等等,都有专门的课(羡慕脸)。

NLP很大,可惜时间太少

好了,回到224n。像我们Quarter制(4学期制)的学校,一学期是11周,今年由于疫情,学期强行缩减到10周,时间更加紧张。这么短的时间里要塞进整个NLP的内容,显然不可能,所以NLP里很多任务,如信息抽取、对话系统,课程里都没有涉及到(当然124、224U有补充一些概念)。也许224n可以像Data Mining一样,概念部分是一节课(CS 246),Project专门另外一节课来做(CS 341),可能就不用这么赶时间了。

同时,由于时间限制、科技趋势,课程里偏语言学的概念也越来越少。前面有提到,核心课程里唯一比较硬核Linguistics的内容是Dependency Parsing。19年的公开课里Manning花了一节讲Constituency Parsing,今年这节课已被其他内容取代,以后可能也不会再讲这个概念了,有些令人唏嘘。

我第一次接触NLP,应该是读吴军老师的《数学之美》,当初花了不少功夫理解信息论、隐马尔可夫、TF-IDF、分词等等概念,但是224n完全没有涉及它们。这本书是2014年写的,也许其中一些概念在这个BERT的时代已经变得不太相关了吧,真是让人感叹技术迭代的速度之快啊。

完成了前半学期的学习,大家也准备好肝Final Project啦!224n的重头戏还在后半学期,下篇文章会更精彩哦!

后台回复关键词【入群

加入卖萌屋NLP/IR/Rec与求职讨论群

后台回复关键词【顶会

获取ACL、CIKM等各大顶会论文集!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478721.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

美团外卖骑手背后的AI技术

背景 随着数字化时代的到来,外卖市场近年来发展非常迅猛。对外卖物流系统而言,配送效率和用户体验至关重要。而实际配送过程是由配送员(骑手)最终完成的,因此,想要真正提升配送效率,不但要在智能…

LeetCode 494. 目标和(DFS+DP)

文章目录1. 题目2. 解题2.1 递归2.2 DP1. 题目 给定一个非负整数数组,a1, a2, …, an, 和一个目标数,S。现在你有两个符号 和 -。对于数组中的任意一个整数,你都可以从 或 -中选择一个符号添加在前面。 返回可以使最终数组和为目标数 S 的…

使用Kotlin开发Android应用初体验

使用Kotlin开发Android应用初体验 昨晚,最近一届的谷歌IO大会正式将Kotlin确定为了官方开发语言,作为一名Android开发鸟,怎么能不及时尝尝鲜呢? Kotlin的简要介绍 在开发之前,很多同学一定有很多疑问,Kotlin到底有…

论文浅尝 - ICML2020 | 基于子图推理的归纳式关系预测

论文笔记整理:陈名杨,浙江大学在读博士生,主要研究方向为知识图谱表示学习。论文来源:ICML 2020Introduction当前在知识图谱上(KnowledgeGraph,KG)进行关系预测的很多方法都依靠在对知识图谱中的…

CVPR 二十年,影响力最大的 10 篇论文!

文 | 二玖极市平台此前,极市盘点了图像分割在过去二十年中影响力最大的10篇论文,得到了许多开发者的支持。今天,我们将对计算机视觉领域三大顶会之一CVPR在近二十年来中产生的优秀论文进行一个全面的盘点与总结。CVPR是计算机视觉领域三大顶会…

DataMan-美团旅行数据质量监管平台实践

背景 数据,已经成为互联网企业非常依赖的新型重要资产。数据质量的好坏直接关系到信息的精准度,也影响到企业的生存和竞争力。Michael Hammer(《Reengineering the Corporation》一书的作者)曾说过,看起来不起眼的数据…

LeetCode 133. 克隆图(图的BFS/DFS)

1. 题目 给定无向连通图中一个节点的引用&#xff0c;返回该图的深拷贝&#xff08;克隆&#xff09;。图中的每个节点都包含它的值 val&#xff08;Int&#xff09; 和其邻居的列表&#xff08;list[Node]&#xff09;。 class Node { public:int val;vector<Node*> n…

七天搞定java接口自动化测试实战,一文搞定...

前言 无论是自动化测试还是自动化部署&#xff0c;撸码肯定少不了&#xff0c;所以下面的基于java语言的接口自动化测试&#xff0c;要想在业务上实现接口自动化&#xff0c;前提是要有一定的java基础。 如果没有java基础&#xff0c;也没关系。这里小编也为大家提供了一套jav…

Android自动化测试探索

前言 通常来说&#xff0c;我们开发完成产品之后&#xff0c;都是由测试组或者是我们自己点一点&#xff0c;基本上没有问题了就开始上线。但是&#xff0c;随着时间的堆叠&#xff0c;一款产品的功能也越来越多。这时&#xff0c;我们为了保证产品的质量&#xff0c;就需要在…

我整理了100道大厂算法岗面试必考题!

最近&#xff0c;很多小伙伴给我留言去面试被面试官吊打了&#xff0c;尤其是一些去面大厂的朋友&#xff0c;甚至一面都没有过...来&#xff0c;别灰心&#xff0c;我以过往经验告诉你大厂面试的通关秘诀&#xff01;对&#xff0c;就是算法&#xff01;大厂面试必考算法&…

参会邀请 - ISWC2020 | 第十九届国际语义网会议

第十九届国际语义网会议&#xff08;ISWC2020&#xff09;将于11月1日至6日远程召开。国际语义网会议是全球最重要的且最有影响力的国际学术会议&#xff0c;主要聚焦语义网&#xff0c;知识图谱&#xff0c;本体&#xff0c;链接数据等面向互联网的人工智能技术。国际语义网会…

美团配送资金安全治理之对账体系建设

前言 随着美团配送业务的飞速发展&#xff0c;单量已经达到千万级别&#xff0c;同时每天产生的资金额已经超过几千万&#xff0c;清结算系统在保证线上服务稳定可靠的前提下&#xff0c;如何系统化的保障资金安全是非常核心且重要的课题&#xff0c;配送清结算系统经过近3年的…

gcc安装不行的解决办法,需更新apt-get

上面应该更新apt-get 更新之后&#xff0c;重新安装gcc成功

LeetCode 138. 复制带随机指针的链表(哈希 / 深拷贝)

1. 题目 给定一个链表&#xff0c;每个节点包含一个额外增加的随机指针&#xff0c;该指针可以指向链表中的任何节点或空节点。 要求返回这个链表的深拷贝。 《剑指Offer》同题&#xff1a;面试题35. 复杂链表的复制 2. 解题 类似题目&#xff1a;LeetCode 1484. 克隆含随…

论文浅尝 - COLING2020 | 桥接文本和知识的多原型嵌入在少样本关系三元组抽取中的研究...

本文转载自公众号&#xff1a;浙大KG。 论文题目&#xff1a;Bridging Text and Knowledge with Multi-Prototype Embedding for Few-Shot Relational Triple Extraction本文作者&#xff1a;余海阳发表会议&#xff1a;COLING 2020论文链接&#xff1a;https://person.zju.…

惊呆!不用一张图片,却训出个图像识别SOTA?

文 &#xff5c; 橙橙子如果老板派给你一个任务&#xff0c;不使用一张图片&#xff0c;让你训练一个视觉预训练模型&#xff0c;你会不会觉得老板疯了。最近有一篇论文&#xff0c;不仅没用一张真实图片和标注&#xff0c;还训练出个媲美SOTA的效果&#xff0c;甚至超过了MoCo…

LeetCode 797. 所有可能的路径(DFS)

1. 题目 给一个有 n 个结点的有向无环图&#xff0c;找到所有从 0 到 n-1 的路径并输出&#xff08;不要求按顺序&#xff09; 二维数组的第 i 个数组中的单元都表示有向图中 i 号结点所能到达的下一些结点&#xff08;译者注&#xff1a;有向图是有方向的&#xff0c;即规定…

每天数百亿用户行为数据,美团点评怎么实现秒级转化分析?

背景 用户行为分析是数据分析中非常重要的一项内容&#xff0c;在统计活跃用户&#xff0c;分析留存和转化率&#xff0c;改进产品体验、推动用户增长等领域有重要作用。美团点评每天收集的用户行为日志达到数百亿条&#xff0c;如何在海量数据集上实现对用户行为的快速灵活分析…

pycharm插件之SonarLint

pycharm插件之SonarLint pycharm插件之SonarLint 一、插件安装位置 1、在线安装插件 通过File—>Settings—>Plugins进行安装插件&#xff0c;然后只需要重新启动IEDA即可。 2、离线安装插件 通过 Settings > Plugins > Install Plugin from 离线安装&#x…

论文浅尝 - ICLR2020 | You Can Teach an Old Dog New Tricks!关于训练知识图谱嵌入

论文笔记整理&#xff1a;谭亦鸣&#xff0c;东南大学博士生。来源&#xff1a;ICLR2020链接&#xff1a;https://openreview.net/pdf?idBkxSmlBFvrKG embedding&#xff08;KGE&#xff09;模型的目标是学习知识图谱中实体和关系的向量表示。近年来众多的KGE方法被提出&#…