论文《learning to link with wikipedia》

learning to link with wikipedia

一、本文目标:

         如何自动识别非结构化文本中提到的主题,并将其链接到适当的Wikipedia文章中进行解释。

 

二、主要借鉴论文:

     Mihalcea and Csomai----Wikify!: linking documents to encyclopedic knowledge

         第一步:detection(identifying the terms and phrases from which links should be made):

link probabilities:它作为锚的维基百科文章数量,除以提及它的文章数量。

       第二步:disambiguation:从短语和上下文的单词中提取特征。

      

     Medelyan et al.---- Topic Indexing with Wikipedia.

         Disambiguation:

Balancing the commonness (or prior probability) of each sense and how the sense relates to its surrounding context.

 

 

 

三、两大步骤:link disambiguation and link detection

Link disambiguation:

      Commonness and Relatedness

  1.The commonness of a sense is defined by the number of times it is used as a destination in Wikipedia.

 

  2.Our algorithm identifies these cases by comparing each possible sense with its surrounding context. This is a cyclic problem because these terms may also be ambiguous

        

         where a and b are the two articles of interest, A and B are the sets of all articles that link to a and b respectively, and W is set of all articles in Wikipedia.

        

      Some context terms are better than others

         1.单词The是明确的,因为它只用于链接到文章的语法概念,但是对于消除其他概念的歧义,它没有任何价值。

       link probability 可以解决这个问题。很多文章提到the,但没有把它作为链接使用。

  2. 许多上下文术语都是与文档的中心无关的. 我们可以使用Relatedness的度量方法,通过计算一个术语与所有其他上下文术语的平均语义关联,来确定该术语与这个中心线程的关系有多密切。

  

  These two variables—link probability and relatedness—are averaged to provide a weight for each context term.

        

      Combining the features

图中,大多关于“树”是与本文是不相关的,因为该文档显然是关于计算机科学的。如果在上下文不明确或混淆的情况下,则应选择最常用。这在大多数情况下都是正确的。

       引入最后一个feature: context quality

         This takes into account the number of terms involved, the extent they relate to each other, and how often they are used as Wikipedia links.

        

         the commonness of each sense,its relatedness to the surrounding context,context quality

这三个feature来训练一个分类器。

注:这个分类器并不是为每一项选择最好的词义,而是独立考虑每一种候选,并产生它的概率。

        

 

         训练阶段需要考虑的问题:参数,分类器。

                   参数:specifies the minimum probability of senses that are considered by the algorithm.

                            ---- 2%

                   分类器:C4.5

 

        

 

link detection:

link detection首先收集文档中的所有n-grams,并保留那些概率超过非常低的阈值(这用于丢弃无意义的短语和停止词)。使用分类器消除所有剩余短语的歧义。

 

 

1.会有几个链接与之相关的情况。就像Democrats and Democratic Party的情况一样。

  2.如果分类器发现多个可能的情况,术语可能指向多个候选。例如,民主党人可以指该党或任何民主的支持者。

Features of these articles are used to inform the classifier about which topics should and should not be linked:

Link Probability

Mihalcea and Csomai’s link probability to recognize the majority of links

         引入两个feature: the average and the maximum

         the average: expected to be more consistent

         the maxinum: be more indicative of links

比如:Democratic Party 比 the party 有更高的链接可能性。

Relatedness

此文中,读者更可能对克林顿、奥巴马和民主党感兴趣,而不是佛罗里达州或密歇根州。

希望与文档中心线相关的主题更有可能被链接。

引入feature:  the average relatedness

between each topic and all of the other candidates.

Disambiguation Confidence

使用分类器的结果作为置信度。

引入两个feature: average and maximum values

Generality

对于读者来说,为他们不知道的主题提供链接要比为那些不需要解释的主题提供链接更有用。

为一个链接定义一个generality表示它位于Wikipedia类别树中的最小深度。

通过从构成Wikipedia组织层次结构根的基本类别开始执行广度优先搜索来计算。

Location and Spread

         三个feature: Frequency         first occurrence        last occurrence

         第一次和最后一次出现的距离用于体现文档讨论主题的一致性。        

 

  训练阶段唯一要配置的变量是初始链接概率阈值,用于丢弃无意义的短语和停止单词。

         --6.5%

 

四.WIKIFICATION IN THE WILD

         Data: Xinhua News Service, the New York Times, and the Associated Press.

        

 

        

 

转载于:https://www.cnblogs.com/dhName/p/11078596.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/247714.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

java面向对象的特征二:继承性 —(14)

1.为什么要有类的继承性?(继承性的好处) ① 减少了代码的冗余,提高了代码的复用性② 便于功能的扩展③ 为之后多态性的使用,提供了前提 图示: 2.继承性的格式: class A extends B{} A:子类、派生类、s…

java面向对象的特征三:多态性 —(15)

1.多态性的理解:可以理解为一个事物的多种形态。 2.何为多态性: 对象的多态性:父类的引用指向子类的对象(或子类的对象赋给父类的引用) 举例: Person p new Man(); Object obj new Date(); 3.多态性的…

vue 中$index $key 已移除

之前可以这样: 123456<ulid"example"><liv-for"item in items">{{$index}}{{$key}}</li></ul>现在已经移除,如果还用的话就会报错:Uncaught ReferenceError: $index is not defined; 现在这样写: 123456<ul id"example&qu…

vue-resource全攻略

Vue.js——vue-resource全攻略 概述 上一篇我们介绍了如何将$.ajax和Vue.js结合在一起使用&#xff0c;并实现了一个简单的跨域CURD示例。Vue.js是数据驱动的&#xff0c;这使得我们并不需要直接操作DOM&#xff0c;如果我们不需要使用jQuery的DOM选择器&#xff0c;就没有必要…

java面向对象:关键字 —(16)

static:静态的 1.可以用来修饰的结构&#xff1a;主要用来修饰类的内部结构 属性、方法、代码块、内部类 2.static修饰属性&#xff1a;静态变量&#xff08;或类变量&#xff09; 2.1 属性&#xff0c;是否使用static修饰&#xff0c;又分为&#xff1a;静态属性 vs 非静态…

《少年先疯队》第九次团队作业:Beta冲刺与团队项目验收

博文简要信息表&#xff1a; 项目内容软件工程https://www.cnblogs.com/nwnu-daizh/本次实验链接地址https://www.cnblogs.com/nwnu-daizh/p/11056511.html团队名称少年先疯队作业学习目标&#xff08;1&#xff09;掌握软件黑盒测试技术&#xff1b;&#xff08;2&#xff09;…

vue-resource jsonp跨域问题解决方法

最近在学习vue.js 碰到个ajax跨域请求的问题&#xff0c;之前知道可以用jsonp解决&#xff0c;但是一直没实践过&#xff0c;这次用发现里面好多问题&#xff0c;所以现在记录下来&#xff0c;希望可以给刚接触使用jsonp的同学一点帮助&#xff01; 关于什么是jsonp&#xff0c…

java面向对象:关键字 —(17)

interface:接口 1.使用说明&#xff1a; 1.接口使用interface来定义 2.Java中&#xff0c;接口和类是并列的两个结构3.如何定义接口&#xff1a;定义接口中的成员 3.1 JDK7及以前&#xff1a;只能定义全局常量和抽象方法>全局常量&#xff1a;public static final的.但是…

java面向对象:异常处理 —(18)

1. 异常的体系结构 java.lang.Throwable |-----java.lang.Error:一般不编写针对性的代码进行处理。|-----java.lang.Exception:可以进行异常的处理|------编译时异常(checked)|-----IOException|-----FileNotFoundException|-----ClassNotFoundException|------运行时异常(un…

【vue报错】——listen EADDRINUSE :::8080 解决方案

问题原因&#xff1a; 此项错误表示 8080 端口被占用 解决方案一&#xff1a; 打开cmd 输入&#xff1a;netstat -ano 查看所有端口信息&#xff0c;如图&#xff0c;找到端口 8081&#xff0c;以及对应的 PID 输入&#xff1a;tskill PID 即可杀死进程 解决方案二&#xff1a…

HTML与CSS布局技巧总结

很多人对CSS的布局有困惑&#xff0c;实际的应用场景中由于布局种类多难以选择。今天我花些时间总结下自己对CSS布局的理解&#xff0c;分析下了解各种布局的优劣&#xff0c;同时希望能分享给初入前端的朋友们一些在布局上的经验&#xff0c;如果有那些地方总结的不好&#xf…

当谈论迭代器时,我谈些什么?

花下猫语&#xff1a;之前说过&#xff0c;我对于编程语言跟其它学科的融合非常感兴趣&#xff0c;但我还说漏了一点&#xff0c;就是我对于 Python 跟其它编程语言的对比学习&#xff0c;也很感兴趣。所以&#xff0c;我一直希望能聚集一些有其它语言基础的同学&#xff0c;一…

在Vue-cli项目中使用echarts

该示例使用 vue-cli 脚手架搭建 安装echarts依赖 npm install echarts -S11 或者使用国内的淘宝镜像&#xff1a; 安装 npm install -g cnpm --registryhttps://registry.npm.taobao.org11 使用 cnpm install echarts -S11 创建图表 全局引入 main.js // 引入echarts im…

通过GitHub Pages创建个人主页

登陆github,创建新仓库&#xff0c;写入名字, 这里要以github.io做后缀, 不然创建出来的不是GitHub Pages 打开终端, cd到自己想要的文件夹后clone到本地 git clone https://github.com/username/username.github.io 进入这个项目文件夹 cd username.github.io 把写好HTML项目拷…

validate+jquery+ajax表单验证

1.案例 1.1 Html form表单内容 <form class"cForm" id"cForm" method"post" action""> <p> <label for"user">用户名</label> <input id"user" name"user" required minlen…

设置Maven下载镜像源(直接替换其中的 settings.xml 内容即可)

<?xml version"1.0" encoding"UTF-8"?> <settings xmlns"http://maven.apache.org/SETTINGS/1.0.0"xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation"http://maven.apache.org/SETTINGS/1.0.…

P1576 最小花费

----------------------------------- 这道题就是图论最短路&#xff0c;但是我们要改一下一些细节 比如说&#xff0c;因为这是算汇率&#xff0c;我们的初始化就要是0 我们还要改一改松弛操作 ----------------------------------- 还有&#xff0c;题目上给的是汇率&#xf…

css hack技术整理

做前端多年&#xff0c;虽然不是经常需要hack&#xff0c;但是我们经常会遇到各浏览器表现不一致的情况。基于此&#xff0c;某些情况我们会极不情愿的使用这个不太友好的方式来达到大家要求的页面表现。我个人是不太推荐使用hack的&#xff0c;要知道一名好的前端&#xff0c;…

Hanoi双塔问题

Hanoi双塔问题 题目描述 给定A,B,C三根足够长的细柱&#xff0c;在A柱上放有2n个中间有空的圆盘&#xff0c;共有n个不同的尺寸&#xff0c;每个尺寸都有两个相同的圆盘&#xff0c;注意这两个圆盘是不加区分的(下图为n3的情形&#xff09;。现要将 这些国盘移到C柱上&#xff…

vue中config/index.js:配置的详细理解

当我们需要和后台分离部署的时候&#xff0c;必须配置config/index.js: 用vue-cli 自动构建的目录里面 &#xff08;环境变量及其基本变量的配置&#xff09; 123456789101112131415var path require(path)module.exports {build: {index: path.resolve(__dirname, dist/ind…