论文《learning to link with wikipedia》

learning to link with wikipedia

一、本文目标:

         如何自动识别非结构化文本中提到的主题,并将其链接到适当的Wikipedia文章中进行解释。

 

二、主要借鉴论文:

     Mihalcea and Csomai----Wikify!: linking documents to encyclopedic knowledge

         第一步:detection(identifying the terms and phrases from which links should be made):

link probabilities:它作为锚的维基百科文章数量,除以提及它的文章数量。

       第二步:disambiguation:从短语和上下文的单词中提取特征。

      

     Medelyan et al.---- Topic Indexing with Wikipedia.

         Disambiguation:

Balancing the commonness (or prior probability) of each sense and how the sense relates to its surrounding context.

 

 

 

三、两大步骤:link disambiguation and link detection

Link disambiguation:

      Commonness and Relatedness

  1.The commonness of a sense is defined by the number of times it is used as a destination in Wikipedia.

 

  2.Our algorithm identifies these cases by comparing each possible sense with its surrounding context. This is a cyclic problem because these terms may also be ambiguous

        

         where a and b are the two articles of interest, A and B are the sets of all articles that link to a and b respectively, and W is set of all articles in Wikipedia.

        

      Some context terms are better than others

         1.单词The是明确的,因为它只用于链接到文章的语法概念,但是对于消除其他概念的歧义,它没有任何价值。

       link probability 可以解决这个问题。很多文章提到the,但没有把它作为链接使用。

  2. 许多上下文术语都是与文档的中心无关的. 我们可以使用Relatedness的度量方法,通过计算一个术语与所有其他上下文术语的平均语义关联,来确定该术语与这个中心线程的关系有多密切。

  

  These two variables—link probability and relatedness—are averaged to provide a weight for each context term.

        

      Combining the features

图中,大多关于“树”是与本文是不相关的,因为该文档显然是关于计算机科学的。如果在上下文不明确或混淆的情况下,则应选择最常用。这在大多数情况下都是正确的。

       引入最后一个feature: context quality

         This takes into account the number of terms involved, the extent they relate to each other, and how often they are used as Wikipedia links.

        

         the commonness of each sense,its relatedness to the surrounding context,context quality

这三个feature来训练一个分类器。

注:这个分类器并不是为每一项选择最好的词义,而是独立考虑每一种候选,并产生它的概率。

        

 

         训练阶段需要考虑的问题:参数,分类器。

                   参数:specifies the minimum probability of senses that are considered by the algorithm.

                            ---- 2%

                   分类器:C4.5

 

        

 

link detection:

link detection首先收集文档中的所有n-grams,并保留那些概率超过非常低的阈值(这用于丢弃无意义的短语和停止词)。使用分类器消除所有剩余短语的歧义。

 

 

1.会有几个链接与之相关的情况。就像Democrats and Democratic Party的情况一样。

  2.如果分类器发现多个可能的情况,术语可能指向多个候选。例如,民主党人可以指该党或任何民主的支持者。

Features of these articles are used to inform the classifier about which topics should and should not be linked:

Link Probability

Mihalcea and Csomai’s link probability to recognize the majority of links

         引入两个feature: the average and the maximum

         the average: expected to be more consistent

         the maxinum: be more indicative of links

比如:Democratic Party 比 the party 有更高的链接可能性。

Relatedness

此文中,读者更可能对克林顿、奥巴马和民主党感兴趣,而不是佛罗里达州或密歇根州。

希望与文档中心线相关的主题更有可能被链接。

引入feature:  the average relatedness

between each topic and all of the other candidates.

Disambiguation Confidence

使用分类器的结果作为置信度。

引入两个feature: average and maximum values

Generality

对于读者来说,为他们不知道的主题提供链接要比为那些不需要解释的主题提供链接更有用。

为一个链接定义一个generality表示它位于Wikipedia类别树中的最小深度。

通过从构成Wikipedia组织层次结构根的基本类别开始执行广度优先搜索来计算。

Location and Spread

         三个feature: Frequency         first occurrence        last occurrence

         第一次和最后一次出现的距离用于体现文档讨论主题的一致性。        

 

  训练阶段唯一要配置的变量是初始链接概率阈值,用于丢弃无意义的短语和停止单词。

         --6.5%

 

四.WIKIFICATION IN THE WILD

         Data: Xinhua News Service, the New York Times, and the Associated Press.

        

 

        

 

转载于:https://www.cnblogs.com/dhName/p/11078596.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/247714.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

java类的结构:构造器 —(13)

1.构造器(或构造方法):Constructor 构造器的作用: 1.创建对象2.初始化对象的信息 2.使用说明: 1.如果没显式的定义类的构造器的话,则系统默认提供一个空参的构造器2.定义构造器的格式:权限修…

java面向对象的特征二:继承性 —(14)

1.为什么要有类的继承性?(继承性的好处) ① 减少了代码的冗余,提高了代码的复用性② 便于功能的扩展③ 为之后多态性的使用,提供了前提 图示: 2.继承性的格式: class A extends B{} A:子类、派生类、s…

vuejs怎么在服务器上发布部署

首先VUE 是一个javascript的前端框架,注定了它是运行在浏览器里的,对服务器本地没有任何要求,只要一个静态文件服务器能通过http访问到其资源文件就足矣!无论你是用apache ,ngnix 就算你要用node 自己实现一个静态文件服务器&…

C#入门详解(14)

接口,依赖反转,单元测试 接口是协约是规定,所以必须是公开的,只能是public; static void Main(string[] args){int[] num1 new int[] { 1, 2, 3, 4, 5 };Console.WriteLine(Sum(num1).ToString());Console.WriteLine(""…

SpringBoot操作MongoDB实现增删改查

本篇博客主讲如何使用SpringBoot操作MongoDB。 SpringBoot操作MongoDB实现增删改查 &#xff08;1&#xff09;pom.xml引入依赖 <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-data-mongodb</artifac…

java面向对象的特征三:多态性 —(15)

1.多态性的理解&#xff1a;可以理解为一个事物的多种形态。 2.何为多态性&#xff1a; 对象的多态性&#xff1a;父类的引用指向子类的对象&#xff08;或子类的对象赋给父类的引用&#xff09; 举例&#xff1a; Person p new Man(); Object obj new Date(); 3.多态性的…

vue 中$index $key 已移除

之前可以这样: 123456<ulid"example"><liv-for"item in items">{{$index}}{{$key}}</li></ul>现在已经移除,如果还用的话就会报错:Uncaught ReferenceError: $index is not defined; 现在这样写: 123456<ul id"example&qu…

vue-resource全攻略

Vue.js——vue-resource全攻略 概述 上一篇我们介绍了如何将$.ajax和Vue.js结合在一起使用&#xff0c;并实现了一个简单的跨域CURD示例。Vue.js是数据驱动的&#xff0c;这使得我们并不需要直接操作DOM&#xff0c;如果我们不需要使用jQuery的DOM选择器&#xff0c;就没有必要…

java面向对象:关键字 —(16)

static:静态的 1.可以用来修饰的结构&#xff1a;主要用来修饰类的内部结构 属性、方法、代码块、内部类 2.static修饰属性&#xff1a;静态变量&#xff08;或类变量&#xff09; 2.1 属性&#xff0c;是否使用static修饰&#xff0c;又分为&#xff1a;静态属性 vs 非静态…

《少年先疯队》第九次团队作业:Beta冲刺与团队项目验收

博文简要信息表&#xff1a; 项目内容软件工程https://www.cnblogs.com/nwnu-daizh/本次实验链接地址https://www.cnblogs.com/nwnu-daizh/p/11056511.html团队名称少年先疯队作业学习目标&#xff08;1&#xff09;掌握软件黑盒测试技术&#xff1b;&#xff08;2&#xff09;…

vue-resource jsonp跨域问题解决方法

最近在学习vue.js 碰到个ajax跨域请求的问题&#xff0c;之前知道可以用jsonp解决&#xff0c;但是一直没实践过&#xff0c;这次用发现里面好多问题&#xff0c;所以现在记录下来&#xff0c;希望可以给刚接触使用jsonp的同学一点帮助&#xff01; 关于什么是jsonp&#xff0c…

虚拟机无法连接至网络

问题&#xff1a; 虚拟机中的win XP系统无法连接至外部win10系统网络 尝试解决方法&#xff1a; 1&#xff09;换用桥接模式和NAT模式&#xff0c;无效 2&#xff09;恢复虚拟机网络属性至默认状态&#xff0c;无效 最终解决方法&#xff1a; 换用外部无线网络&#xff0c;即能…

java面向对象:关键字 —(17)

interface:接口 1.使用说明&#xff1a; 1.接口使用interface来定义 2.Java中&#xff0c;接口和类是并列的两个结构3.如何定义接口&#xff1a;定义接口中的成员 3.1 JDK7及以前&#xff1a;只能定义全局常量和抽象方法>全局常量&#xff1a;public static final的.但是…

原生js来实现对dom元素class的操作方法

jQuery操作class的方式非常强大 写了一个利用原生js来实现对dom元素class的操作方法 1.addClass:为指定的dom元素添加样式 2.removeClass:删除指定dom元素的样式 3.toggleClass:如果存在(不存在)&#xff0c;就删除(添加)一个样式 4.hasClass:判断样式是否存在 下面为一toggleC…

python+selenium配置Edge浏览器

Chrome, Firefox只需要修改conftest.py文件中的 pytest.fixture(scopesession)def browser(): return BzwUtil.read_yml(config.yml,WEB_INFO,BROWSER) add option in pytest command line def pytest_addoption(parser): parser.addoption("--browser", actio…

JSON.parse和JSON.stringify方法

JSON.parse() JSON.parse()方法将json字符串转化为Javascript值或对象。 语法 JSON.parse(text[,reviver]) 参数 text:要被解析成Javascript值的字符串 reviver:若是一个函数则规定了原始值(text)如何被解析改造&#xff0c;在被返回前。 示例 JSON.parse({}); //…

java面向对象:异常处理 —(18)

1. 异常的体系结构 java.lang.Throwable |-----java.lang.Error:一般不编写针对性的代码进行处理。|-----java.lang.Exception:可以进行异常的处理|------编译时异常(checked)|-----IOException|-----FileNotFoundException|-----ClassNotFoundException|------运行时异常(un…

vue请求简单配置

简单记录一下vue的http请求配置相关 测试环境请求接口设置:   1. config/dev.env.js添加&#xff1a;     module.exports merge(prodEnv, {       NODE_ENV: "development",       API_ROOT: "http://", //配置http请求头     })…

【vue报错】——listen EADDRINUSE :::8080 解决方案

问题原因&#xff1a; 此项错误表示 8080 端口被占用 解决方案一&#xff1a; 打开cmd 输入&#xff1a;netstat -ano 查看所有端口信息&#xff0c;如图&#xff0c;找到端口 8081&#xff0c;以及对应的 PID 输入&#xff1a;tskill PID 即可杀死进程 解决方案二&#xff1a…

记录_20190626

java.lang.ArithmeticException: Non-terminating decimal expansion; no exact representable decimal result异常的解决方法 原来JAVA中如果用BigDecimal做除法的时候一定要在divide方法中传递第二个参数&#xff0c;定义精确到小数点后几位&#xff0c;否则在不整除的情况下…