NLP研究者必备的语言学书籍!

文 | Serena Gao@知乎

首先,做nlp不一定要很懂语言学,也不一定要跟语言学扯上关系。nlp可以仅是data mining,features engineering, 也的确有很多work目前在用文本或者对话做为数据集,然后用统计学方法实现目的,比如deep learning 。在某些任务上统计学模型功不可没,比如machine translation, speech recognition, question answering, etc.

许多主流大公司目前的力度都在deep learning, 学好nlp基本知识,做工程就够了(当然你还需要cs的background), 语言学的东西不用太深入研究。

大多数人对nlp和语言学联系的了解,在于认为rule-based的nlp就是基于语言学。的确rule-based是语言学里广泛使用的,尤其是语法(syntax, syntactic structure)。现在machine learning的发展已经可以将rules转换为hidden states,人不用去操心提出大量rules来做exhaustive search。

但computational linguistics所包含的,远远大于rules。人类语言是漫长历史进化的高级产物,远不是成千上万个rules能描述清楚的。能被nlp利用的语言学,除了枚举rules外还有很多很多。

比如定义。个人认为,在研究任何问题前,都必须要想清楚你的问题是什么,怎么定义。许许多多nlp research都是基于语言学上的定义,像我下文会提到的semantics, grammar。可是如果没有从沿用语言学的定义到nlp,这个0到1的过程,最早做researchers的人该如何想明白他们的research question?

做对话系统的同学应该很熟悉dialogue acts. 现在的对话系统发展迅猛,很多新应用都基于reinforcement learning, 并且取得显著成就。尤其是某些task-oriented dialogue generator, 早就不是十多年前的rule-based system了。但任何一个系统在设计之初都要采用dialouge acts定义(当然还有其他定义),来明确该系统的目的。不然该系统如何区分wh-question, yes-no question, greetings, 还有其他?(如果觉得见到“wh-”开头,问号结尾,就是一个wh-question rule, 那我不知道该说什么好了)

明确自己的research task并且贯彻到底是好事,如果要做language modeling,基于machine learning/deep learning, 那真的不用费时间在语言学上。但觉得语言学是rule based已经过时了被淘汰了,这个锅语言学真的背的有点冤呀。

接下来的回答是,给真正对computational linguistics和nlp本身感兴趣的,对某些语言现象感兴趣,并打算在这条路上开始钻研的同学的一些建议。(想忽略细节的同学请直接拉到答案最后找reference)

人大脑工作不是靠probablistic language modeling,咱们谁的脑袋里都不会听到一个词然后跑一遍hidden markov,毕竟也进化了这么多年了不是。

与nlp相关,跟概率论并进的,除了传统的语言学,还有logic呢,Lofti Zadeh老爷爷研究了一辈子的fuzzy logic,也是在探究semantics&world knowledge (再次感谢老爷爷的贡献,r.i.p)。

我也并不是在强调概率模型不重要,概率模型和现在很火的deep learning architecture像是基本功一样,而且是很好用的工具,其他答主已经强调很多,我就不再重复了。除了这些,还有很多知识可以深入了解。

另外,语言学自身是个很大又很宽泛,又互相交叉的学科。有很多研究是跟literatures and arts有关,有的是跟cognitive science有关,还有neuroscience, mathematics, education, psychology, etc。我涉猎有限,在此只能回答跟computational linguistics有关("to the best of my knowledge")。

Grammar

Grammar是我会首先推荐的方向。Grammar分为morphology&syntax. 在这里我主要指syntax.细节可以看Chomsky, Michael Colins, Jason Eisner等人的工作。现在大家用的最多的应该是stanford的syntactic parsing吧。这方面的工作已经很成熟,要处理语言基本是拿来就能用了。但是语法树到底是什么,怎么构建,syntatic parsing优势,如何处理ambiguity, 想要做computational linguistics的话,这些很有必要知道。最基本的例子是,当用parser来处理你的句子,你起码要能看懂这个parser output是否make sense.

Semantics

这个部分是我做最多的,感觉也是被误解最多的。尤其推荐 “Meaning in language: An introduction to Semantics and Pragmatics.” 我并没有看完。Semantics是个很复杂的研究,可以涉及到语法,句法,world knowledge, 但最终还是回归semantics自身。目前nlp里很火的有distributional semantic representation (word embedding, phrase embedding, sentence embedding, etc), semantic parsing (logical form, etc), 等等等等。同一句话可以表达的意思太多了,同一个意思带来的表达形式也太多了。一个简单句子里包含的意思会涉及到当下对话双方的情景,以前或者以后会发生的事,等等。举个个人很喜欢的例子:

2016年美国大选first presidential debate, Clinton vs Trump, 当trump被问到:
“does the public's right to know outweigh your personal .. (taxes)”
Trump: "... I will release my tax returns -- against my lawyer's wishes -- when she releases her 33000 emails that have been deleted. As soon as she releases them, I will release. ".
最后一句话(粗体)包含的语意有:
等Hilary公开邮件记录之后,我就公开我的税务信息(动作和时间点);
Hilary没公开,我也没公开(当下既定事实);
Hilary不愿公开,我也不愿公开(sentiment)。
She -- Clinton, I, my, -- Trump, them -- 33000 emails (co-reference).

第一层意思是直观semantics, 能够被目前的semantic representation捕捉到。第二层是presupposition, 代表着在说话当下当事人双方默认已经发生的事情,是semantics研究中的难点;第三层包含了sentiment, 做情感分析的同学应该很了解,能否被目前的classifier捕捉到我不清楚。第四层是现在也很火的coreference resolution, 虽然原文里没有明确指代每个人称代词,但听众和当事人很直接能把每个人物代入,甚至包括Trump省略的"I will release (my taxes)". 目前的co-reference resolution,e.g. stanford corenlp, 可以解决前三个代词,但省略的部分似乎还做不到。

对Semantic要求最高也是最难的,在nlp中应该是在natural language understanding相关应用了。Semantics里包含了太多太多的现象,如果能稍微研究并且model其中一小部分,对downstream application来说都会是一个很大的boost。前段时间有个shared task,叫 "hedge detection",目的是找出文本信息中的hedges and cues。大部分人会关注这个shared task下哪个模型做的最好,个人认为难点是在定义。有“but”,"however"出现语意就一定转折了么?如果被转折,是所在句子,还是段落还是一个小phrase呢?有dependency存在么?另一个相似shared task是negation detection. 想要理解这些问题本身和其难点所在,computational linguistics的前期知识储备是并不可少的。

以上两个方面应该可以展现一个big picture:前者代表语言结构是如何构建的,后者代表meaning是如何被赋予到某种结构里面的。

除了大框架外,小的方向取决于你的兴趣和目标所在。对话?文本?natural language understanding or natural language generation?

另外提两个我觉得必看的,很重要的理论,是computational pragmatics范畴里的:Grice's maxims, 和Rational Speech Act(RSA). 这两个理论其实紧密相关。前者理论关于谈话双方为了有效沟通会有意识的遵守的一些principle, (同时可见“cooperative principle”), 后者关于为了达到这种有效沟通,对话当中存在的一种recursive process, 并且是bayesian inference. 如果你的工作跟 inference, reasoning相关,请一定要阅读。做对话系统的应该已经很熟悉了。

最后一个比较偏门的方向是我前面提到的fuzzy logic。目前还是有researcher继承Zadeh老爷爷的衣钵,并且用fuzzy logic做出了很多natural language generation, information extraction方面的成就。个人经验而言,我博士第一年(2014)一直在关注deep learning/machine learning方面,当时觉得它们是万能的。直到第二年夏天在忙一个project, 阅读了Zadeh老爷爷的大量工作,才感觉自己一直在以很片面的眼光看research。当时真的做了满满一本笔记。

最后,如果兴趣在建modeling,deep learning architecture, 语言学方面的part-of-speech也好,parsing也好,都只是你的工具;

同样,如果兴趣在computational linguistics,语言现象,deep learning/machine learning都是你的工具。

取决与你的任务是什么,取决于你有没有完全dedicated的信心。毕竟巴菲特和Geff Hinton是少数,大多数人都无法预测20年后火的适合什么。

感谢阅读。希望能给在犹豫是否开始computational linguistics和nlp研究同学们一些帮助。

(任何不准确的地方还请大家指正)

Reference

(大方向书籍,我要是能全部买下来就好了...并没有全部看完,有的只是看过某一章节。Grammar和syntax知乎里面有很多问答跟这方面有关,在此不重复了。)

  • Cruse, Alan. "Meaning in language: An introduction to semantics and pragmatics." (2011).

  • Karttunen, Lauri (1974) [1]. Theoretical Linguistics 1 181-94. Also in Pragmatics: A Reader, Steven Davis (ed.), pages 406-415, Oxford University Press, 1991.

  • Kadmon, Nirit. "Formal pragmatics semantics, pragmatics, presupposition, and focus." (2001).

  • Levinson, Stephen C. Pragmatics.Cambridge: Cambridge University Press, 1983, pp. 181-184.

  • Wardhaugh, Ronald. An introduction to sociolinguistics. John Wiley & Sons, 2010. (这本书的影响力很大,有很多跟social science的讨论)

(具体其他上面提到的,每一篇我都仔细读过的)

  • Monroe, Will, and Christopher Potts. "Learning in the rational speech acts model." arXiv preprint arXiv:1510.06807 (2015).(这篇是关于rsa如何被用于具体task上的)

  • Farkas, Richárd, et al. "The CoNLL-2010 shared task: learning to detect hedges and their scope in natural language text." Proceedings of the Fourteenth Conference on Computational Natural Language Learning---Shared Task. Association for Computational Linguistics, 2010. (上文提到的hedge and cues shared task,关于linguistics里的现象是如何被formulate成nlp问题的)

  • Morante, Roser, and Eduardo Blanco. "* SEM 2012 shared task: Resolving the scope and focus of negation." Proceedings of the First Joint Conference on Lexical and Computational Semantics-Volume 1: Proceedings of the main conference and the shared task, and Volume 2: Proceedings of the Sixth International Workshop on Semantic Evaluation. Association for Computational Linguistics, 2012. (negation 的shared task)

最后附上两篇老爷爷对我影响最大的:

  • Zadeh, Lotfi Asker. "The concept of a linguistic variable and its application to approximate reasoning—I." Information sciences 8.3 (1975): 199-249.

  • Zadeh, Lotfi A. "The concept of a linguistic variable and its application to approximate reasoning—II." Information sciences 8.4 (1975): 301-357.( 这系列work分两部。)

  • Zadeh, Lotfi A. "Toward a theory of fuzzy information granulation and its centrality in human reasoning and fuzzy logic." Fuzzy sets and systems 90.2 (1997): 111-127.

后台回复关键词【入群

加入卖萌屋NLP/IR/Rec与求职讨论群

后台回复关键词【顶会

获取ACL、CIKM等各大顶会论文集!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478805.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LeetCode 334. 递增的三元子序列

1. 题目 给定一个未排序的数组&#xff0c;判断这个数组中是否存在长度为 3 的递增子序列。 数学表达式如下: 如果存在这样的 i, j, k, 且满足 0 ≤ i < j < k ≤ n-1&#xff0c; 使得 arr[i] < arr[j] < arr[k] &#xff0c;返回 true ; 否则返回 false 。 说…

论文小综 | Neuro-Symbolic Reasoning in NLP

本文作者&#xff1a;邓淑敏&#xff0c;浙江大学在读博士&#xff0c;研究方向为低资源条件下知识图谱自动化构建关键技术研究。深度学习的高速发展使得模型的表达能力逐步完善&#xff0c;在一些感知任务&#xff08;例如动作识别和事件检测&#xff09;上取得了显著成果。但…

实时数据产品实践——美团大交通战场沙盘

背景 大数据时代&#xff0c;数据的重要性不言而喻&#xff0c;尤其对于互联网公司&#xff0c;随着业务的快速变化&#xff0c;商业模式的不断创新、用户体验个性化、实时化需求日益突出&#xff0c;海量数据实时处理在商业方面的需求越来越大。如何通过数据快速分析出用户的行…

谁才是Transformer家族中的最强王者?谷歌告诉你答案

文 | Sherry自从17年Attention is all you need发出&#xff0c;继而18年BERT刷新各大榜单&#xff0c;大型预训练Transformer似乎已经成为自然语言处理的标准基准模型&#xff0c;甚至进一步渗透到图像领域。各路大神基于Transformer提出了海量改进方法。这些改变是否对大多数…

LeetCode 652. 寻找重复的子树(DFS)

1. 题目 给定一棵二叉树&#xff0c;返回所有重复的子树。对于同一类的重复子树&#xff0c;你只需要返回其中任意一棵的根结点即可。 两棵树重复是指它们具有相同的结构以及相同的结点值。 示例 1&#xff1a;1/ \2 3/ / \4 2 4/4 下面是两个重复的子树&#xff1a…

论文浅尝 - CIKM2020 | Relation Reflection Entity Alignment

论文笔记整理&#xff1a;谭亦鸣&#xff0c;东南大学博士生。来源&#xff1a;CIKM 2020链接&#xff1a;https://arxiv.org/pdf/2008.07962.pdf研究背景与任务描述:实体对齐旨在基于已有对齐实体标注的情况下&#xff0c;确定不同KG中未知的对等实体&#xff0c;其本质是mult…

SQL解析在美团的应用

数据库作为核心的基础组件&#xff0c;是需要重点保护的对象。任何一个线上的不慎操作&#xff0c;都有可能给数据库带来严重的故障&#xff0c;从而给业务造成巨大的损失。为了避免这种损失&#xff0c;一般会在管理上下功夫。比如为研发人员制定数据库开发规范&#xff1b;新…

无内鬼,来点ICML/ACL审稿人笑话

文 | Sheryc_王苏最近&#xff0c;如果你的小伙伴突然没时间陪你出来玩了&#xff0c;请不要担心&#xff0c;ta可能正在与ICML/IJCAI/ACL的审稿人斗智斗勇。过去的一周里&#xff0c;机器学习顶会ICML、人工智能顶会IJCAI和NLP顶会ACL扎堆放出审稿人意见&#xff0c;有人欢喜有…

Docx:docx.opc.exceptions.PackageNotFoundError: Package not found at

Docx:docx.opc.exceptions.PackageNotFoundError: Package not found at&#xff1a;https://blog.csdn.net/python__reported/article/details/106318330 Docx:docx.opc.exceptions.PackageNotFoundError: Package not found at 一、报错内容二、解决方法 一、报错内容 报错&a…

LeetCode 148. 排序链表(归并排序、快速排序)

文章目录1. 题目2. 解题2.1 归并排序2.2 快速排序1. 题目 在 O(n log n) 时间复杂度和常数级空间复杂度下&#xff0c;对链表进行排序。 示例 1:输入: 4->2->1->3 输出: 1->2->3->4 示例 2:输入: -1->5->3->4->0 输出: -1->0->3->4-&…

论文浅尝 | 基于对抗学习的弱监督知识图谱对齐

论文笔记整理&#xff1a;郭凌冰&#xff0c;浙江大学研究助理&#xff0c;研究方向为知识图谱的表示学习。绝大部分现有的知识图谱对齐方法都要求足够的已对齐三元组作为监督数据&#xff0c;但在现实世界中&#xff0c;获取大量的对齐三元组的代价十分高昂。本文提出一种同时…

美团数据平台Kerberos优化实战

背景 Kerberos 是一种网络认证协议&#xff0c;其设计目标是通过密钥系统为客户端、服务器端的应用程序提供强大的认证服务。 作为一种可信任的第三方认证服务&#xff0c;Kerberos是通过传统的密码技术&#xff08;如&#xff1a;共享密钥&#xff09;执行认证服务的&#xff…

Android官方开发文档Training系列课程中文版:如何避免ANR?

原文地址&#xff1a;http://android.xsoftlab.net/training/articles/perf-anr.html#anr 尽管你写代码可能通过了世界上所有的性能测试&#xff0c;但是它还是可能会让人感觉到卡顿。当应用卡的不成样子时&#xff0c;系统会给你弹一个”Application Not Responding”的对话框…

预训练语言模型真的是世界模型?

文 | 子龙自GPT、BERT问世以来&#xff0c;预训练语言模型在NLP领域大放异彩&#xff0c;刷新了无数榜单&#xff0c;成为当前学界业界的心头爱&#xff0c;其主体结构——Transformer——也在逐步的运用于其他领域的任务中&#xff0c;常见的如与CV的跨界&#xff0c;也有相对…

monk js_对象检测-使用Monk AI进行文档布局分析

原文链接&#xff1a;https://blog.csdn.net/weixin_26752075/article/details/108494230 monk js 计算机视觉 (Computer Vision) 介绍 (Introduction) This is an article on how Object Detection can help us in predicting various regions of a document. It can be usefu…

LeetCode 2019 力扣杯全国秋季编程大赛

文章目录1. 比赛结果2. 题目解析2.1 猜数字 Easy2.2 分式化简 Esay2.3 机器人大冒险 Medium2.4 覆盖 Hard2.5 发 LeetCoin Hard1. 比赛结果 2019.9.24晚&#xff0c;第一次参加线上比赛 比赛排名结果&#xff1a;582/1541&#xff0c;做出了2道题。。。 我证明了&#xff1a;…

美团广告实时索引的设计与实现

背景 在线广告是互联网行业常见的商业变现方式。从工程角度看&#xff0c;广告索引的结构和实现方式直接决定了整个系统的服务性能。本文以美团的搜索广告系统为蓝本&#xff0c;与读者一起探讨广告系统的工程奥秘。 领域问题 广告索引需具备以下基本特性&#xff1a; 层次化的…

论文浅尝 - AAAI2020 | 多通道反向词典模型

论文笔记整理&#xff1a;朱珈徵&#xff0c;天津大学硕士&#xff0c;自然语言处理方向。链接&#xff1a;https://arxiv.org/pdf/1912.08441.pdf动机反向词典将一段描述作为输入&#xff0c;并一起输出与该描述匹配的其他词&#xff0c;具有重要实用价值和自然语言处理研究价…

拒绝暴力调参!推荐一个模型Debug神器!

近些年深度学习在视觉、自然语言处理、语音等各个技术方向都诞生了不少创新应用&#xff0c;如智能识别医疗图像中的病灶&#xff0c;辅助医生做病情诊断&#xff1b;智能判别生产线上有质量问题的产品&#xff0c;减轻人工质检压力&#xff1b;对政务、金融等流程中的证件票据…

论文浅尝 - IJCAI2020 | Mucko:基于事实的多层跨模态知识推理视觉问答

论文笔记整理&#xff1a;陈卓&#xff0c;浙江大学计算机科学与技术系&#xff0c;博士研究生。论文链接&#xff1a;https://arxiv.org/pdf/2006.09073代码&#xff1a;https://github.com/astro-zihao/mucko发表会议&#xff1a;IJCAI 2020任务定义及背景VQA&#xff08;视觉…