1. 词义消歧
1.1 词义消歧的概念
词义消歧(Word Sense Disambiguation, WSD)的概念及其在自然语言处理中的应用之一。词义消歧是确定一个词在特定语境下使用时所指的具体含义。
在提到的例子中,“Do you believe in clubs for young people? Only when kindness fails. — W.C. Fields”,这里的“clubs”这个词有多重含义,可以指 俱乐部 或者 棍棒 ,W.C. Fields 通过使用双关语创造了幽默效果,突出了“棍棒”这一意义。
1.2 贝叶斯分类
在1992年,Gale等人提出了一种基于贝叶斯分类的方法来解决词义消歧问题:
首先,确定一个词w有多种含义s*,这个词在语料库中的上下文c*,以及围绕这个词的其他词v*。
对于给定的上下文c,我们尝试最大化条件概率P(si | c),即在上下文c中词w是意义si的概率。
贝叶斯方法通过如下的方式寻找最可能的含义s*:
在这里,argmax是寻找使概率最大化的意义s*的操作,log P(c | s*)是在意义s*下上下文c的对数概率,log P(s*)是意义s*的先验对数概率。
1.3 朴素贝叶斯假设
朴素贝叶斯假设认为,一个上下文c给定词义sk的概率可以表示为c中所有单词vj给定词义sk的概率的乘积:
P(c | sk) = ∏vj∈c P(vj | sk)。
最后,通过在学习语料库中估计最大期望来进行计算:
ˆP(vj | sk) = #{vj ∈ context(sk)} / #{w},
ˆP(sk) = #{sk} / #{w},
这里,#{vj ∈ context(sk)}表示在意义sk的上下文中vj出现的次数,#{w}表示语料库中词w的总数,#{sk}表示语料库中意义sk的出现次数。
简单来说,这是一种统计方法,通过计算不同词义下上下文的概率,来判断一个词在特定语境中最可能的意义。
1.4 Lesk算法
词义消歧的另一种方法,即使用词典中不同的词义定义来确定在特定上下文中使用的词义。Lesk算法是这种方法的经典形式,提出于1986年。
1.4.1 Lesk算法的基本思想
首先收集目标词在词典中所有可能的定义。
然后取目标词每个定义中的词汇,并将这些词汇与目标词周围词汇的定义进行比较。
如果一个定义中的词汇和上下文中其他词汇的定义有较多重叠,那么这个定义就被认为是正确的词义。
例如,如果我们要确定句子中的"car"的意思,我们会考虑"car"所有的定义,并看这些定义中的词汇与"car"在句子中周围词汇的定义有多少交集。Lesk算法假设越多的交集意味着更高的可能性,那个定义是句子中"car"的正确含义。
Walker于1987年提出使用词典之外的另一个资源——同义词词典或词库,这能提供更多关于词义相似性的线索。
Resnik在1995年提出利用WordNet,这是一个大型的词汇数据库,里面包含了大量的英语词汇的同义词集合以及它们之间的关系。WordNet通过链接词汇和它们的语义关系提供了一个有用的框架来支持词义消歧。
1.4.2 示例
这个例子展示了单词 car 在英语中的多种含义,每个含义都对应不同的上下文和用法。在自然语言处理中,尤其是词义消歧的研究领域,识别单词在特定上下文中的正确含义是非常重要的。这些不同的含义被称为一个单词的同义词集(synsets),通常来自像WordNet这样的词义数据库。每个同义词集提供了一个单词在特定上下文中的具体含义和用法示例。
在例子中:
car, auto, automobile, machine, motorcar – 这些词都指的是“四轮汽车,通常由内燃机驱动;他需要一辆车去上班。”这是最常见的用法,指的是普通的道路汽车。
car, railcar, railway car, railroad car – 这些词指的是“铁路轨道上的有轮车辆;三辆车脱轨了。”在这个上下文中,“car”特指铁路上运行的车厢。
car, gondola – 在这里,“car”指的是“悬挂在飞艇下方,用来载人和货物的吊舱。”这个含义在日常用语中较为少见。
car, elevator car – 这里的“car”是指“电梯里乘客上下移动的部分;车厢在最顶层。”这是指电梯的乘客舱。
cable car, car – 在这个同义词集中,“car”指的是“缆车铁路上运载乘客或货物的车辆;他们乘坐缆车到山顶。”“cable car”是特定类型的交通工具,不同于普通道路汽车。
通过比较待消歧的单词“car”在句子中的上下文和这些同义词集中的定义和例子,词义消歧系统可以确定最合适的含义。例如,如果句子是“After the meeting, they took an elevator car to the lobby”,系统会根据“elevator”这个上下文线索确定“car”的正确含义是“电梯里乘客上下移动的部分”。
2. 词语相似性(Word similarity)
词语相似性(Word similarity)指的是两个词在意义上的接近程度。在自然语言处理领域,衡量词语相似性对于多种应用都是非常重要的,比如语义搜索、文本理解和机器翻译。
2.1 本体论
语义相似性度量(Semantic similarity measures)通常是基于本体论关系来计算的,这些关系包括:
同义关系(Synonymy):两个词具有相同或几乎相同的含义。
上下位关系(Hyponymy):一个词是另一个词的下位词,具有更具体的含义。例如,“苹果”是“水果”的下位词。
整体-部分关系(Meronymy):一个词表示另一个词的一部分。例如,“车轮”是“汽车”的部分。
一个常用的方法是使用WordNet这样的语义网络来寻找两个词之间的最短路径。WordNet中的节点代表不同的词义,边表示词义之间的关系。计算两个节点之间最短路径的逆可以得到一个相似性分数,路径越短,相似性越高。
语义关联度量(Semantic relatedness measures)则用来检测和量化更广泛种类的语义关系。不同于语义相似性,它可以包括任何有意义的联系,不限于本体论关系。例如:
car(汽车) 和 vehicle(车辆) 在语义上是非常相似的,因为汽车是车辆的一种。
car(汽车) 和 gasoline(汽油)在语义上是关联的,尽管它们不是同义词或上下位关系,但汽油是汽车运行所需的燃料。
语义关联度量可以基于共现频率、上下文相似性或者任何其他可以表示两个概念之间关系的统计信息。这种度量对于理解词语如何在实际语境中相互关联非常有帮助。
2.2 ESA
ESA(显式语义分析)是Gabrilovich等人提出的一种基于维基百科语料库的语义关联度量方法。ESA的核心思想是将文本理解成一个由概念组成的向量空间,而这些概念是通过维基百科中的文章来定义的。
ESA的工作过程可以总结为以下几个步骤:
a.清理和过滤维基百科页面:选择那些有足够多文本内容以及一定数量的内外链的页面。
b.预处理文本:删除停用词(stop words,如“和”、“是”等在文本分析中通常被忽略的词),进行词干提取(stemming,即将词汇还原为词根形式),以及计算单词的TF-IDF值。TF-IDF是一种统计方法,用以评估一个词对于一个语料库中的文档的重要程度。它的计算公式如下所示:
其中,是某个词,是一个文档,是词在文档中的出现次数,是文档总数,是包含词的文档数目。
c.表示维基百科页面为向量:每个维基百科页面可以用一个向量来表示,在这个向量空间中,每个坐标轴代表一个非空、经过词干提取的、不同的单词,向量的坐标值是对应单词的TF-IDF值。
d.测量向量相似性:最终,使用余弦相似度(cosine similarity)来测量两个向量之间的相似性。余弦相似度是通过计算两个向量的点积和它们大小(或长度)的乘积的余弦值来确定的,它的值介于-1和1之间,值越接近1表示相似性越高。
总的来说,ESA是一种基于文本的语义相似性度量方法,它利用了维基百科的丰富语义信息,通过将文本转换为基于TF-IDF的向量表示,来计算文本之间的语义相似性。