自然语言处理基础(Natural Language Processing Basics, NLP Basics)
自然语言处理( Natural Language Processing, NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。
为什么NLP重要(Why is NLP Important?)
- Turing Test:A test of machine ability to exhibit intelligent behavior indistinguishable from a human
- Language is the communication tool in the test
艾伦图灵的最早版本:Imitation Game。
卷福也拍过这部电影Imitation Game,为了破解德军的军情信息,图灵和一群才华横溢的人研究如何破译密码,如果纯粹人工破解则几乎不可能,但是他们发明了最早的人工智能机器,通过大模型破译出原始信息,一开始该模型一直无法收敛,直到他们发现传递的信息中总会有“希特勒万岁”这句话之后,发现了大模型的初始条件,一举攻破该难题。
词的表达(Distributed Word Representation)
Word Representation
- Word representation: a process that transform the symbols to the machine understandable meanings
- Definition of meaning(Webster Dictionary)
-
- The thing one intends to convey especially by language
-
- The logical extension of a word
- How to represent the meaning so that the machine can understand?
Goal of Word Representation
- Compute word similarity,计算词的相似度
- Infer word relation,发现词的语义关系
Synonym and Hypernym
- Use a set of related words, such as synonyms and hypernyms to represent a word
用一组相关词(同义词/上位词)集合来表示它
Problems of Synonym/Hypernym Representation
- Missing nuance,有一些细微差异无法完成,比如proficient和good
- Missing new meanings of words,同义词/上位词出现新的词义会缺失实际含义,比如Apple(fruit —> IT company)
- Subjective,主观性问题
- Data sparsity,数据稀疏问题
- Requires human labor to create and adapt,需要大量人工构建和维护这个字典
One-Hot Representation
- Regard words as discrete symbols,把它看作独立的符号
- Word ID or one-hot representation