论文 | 信息检索结果Ranking的评价指标《RankDCG: Rank-Ordering Evaluation Measure》

未经允许,不得转载,谢谢~~

一 文章简介

为什么要提出这个新的评价算法?

  1. 我们都知道ranking过程对于信息检索的结果是非常重要的,那么我们就需要有一些算法能评价ranking的结果到底如何。
  2. 现有用来评价ranking的常用算法有:Kendall's τ, Average Precision(AP) , Mean Average Precision(MAP),Discounted Cumulative Gain (DCG), nDCG.
  3. 跟简单的分类任务只需要一个accuracy不一样,尽管已经有了那么多的ranking measures,但仍然存在一些问题。
  4. 尤其是在解决“对那些具有相同等级分布和倾斜等级分布多个关系的离散值元素进行排序任务时”;
  5. 所以本文基于nDCG算法提出了RankDCG,并提出一些标准来测试这些算法,实验发现只有本文的RankDCG满足全部的要求。

二 排序问题描述

  1. Ordering:用网页检索的例子来看就是要在接近无穷大的数据集中找到相应的信息并对它们进行相关性排序。
  2. 问题可以用数学的方式定义为:
    • A为一系列元素: A = [x1,x2,x3,...,xn];
    • f(x)度量了元素x与query的相关性,f(x)属于0-1;
    • 通常我们能在A中的n个元素找到m个相关的元素,并按相关性由高到低进行排序得到目标结果B;
    • B = [x|x ∈ A,f(x) > 0], 且 B = [ f(x1) > f(x2) > f(x3) > ... > f(xm) ];
  3. 在本文中考虑现实世界中经常出现的排序问题,例如推荐系统和用户排序;这跟上面提到的网页检索有一些不太一样的地方,包括:
    • 在这里每个元素都是相关的;
    • 待排序的都是离散值;
    • 会出现多个元素具有相同等级的情况;
    • 排序结果可能会出现只有非常少数的top result是相关的情况;
  4. 针对上述问题,重新定义了目标结果B的表示为: B = [f(x1) ≥ f(x2) ≥ f(x3) ≥ ... ≥ f(xn)],并对ranking measure提出了需要能够正确反映上述4点的要求。

三 现有评价方法

信息检索领域有多个方法来评价rank ordering的好坏,但是没有一个对上面描述的这种问题是完全适用的,接下来先看看目前常用的一些评价算法。

3.1 F-measure(F-score)

  1. 这是一个在IR中非常常见的评价指标;
  2. 同时考虑了检测精度p和召回率r;


  3. 但是不适用于所有元素都相关的情况,也没有将不同的ranks考虑在内,所以不适合作为rank-ordering的评价标准。

3.2 Average Precision and Mean Average Precision

  1. AP


  • 其中:P(k) = precision@k , ∆R(k) = |recall(k−1)−recall(k)|.
  • 其实理论上的AP应该等于绿色的precision-recall线的下方面积,而用近似计算就等于看成是一小块的长方形的面积之和,即为图中红色虚线的下方面积。
  1. MAP


  • 其中:Q 是query的集合,而q是单个的query,即对所有query的AP求平均。
  1. AP,MAP都可以评价rank-ordering问题;
  2. AP,MAP基于rank与rank之间没有关系的这个前提,没有考虑多个元素会是同一个rank的情况;
  3. AP,MAP对所有的rank values都是用相同的cost对待,没有考虑需要将更多的注意力放在少数几个high-rank的元素上。

3.3 Kendall’s τ

  1. 这个算法考虑了给定list和结果list之间元素对之间的匹配程度;


  2. c表示匹配的元素对的数量,d表示不匹配的元素对数量;
  3. 这个算法仍然没有考虑多个元素值相同rank,与非常少的top-k个相关元素分布情况。
  4. 关于这个算法这里给出一个具体的例子:


3.4 Discounted Cumulative Gain (DCG)

  1. 这个算法考虑了rank排序的问题,是目前文章中介绍过的唯一一个用了cost function的算法;
  2. 本文也是自己与这个算法做的改进;


  3. rel()指的是相关度度量函数,i 表示元素所在的位置;


  4. 这里有一个很不错的例子哦.
  5. 标准的DCG根据元素所在的位置不同给出不同的cost;
  6. 而文章作者认为[9,1,1]对于结果[1,9,1]与[1,1,9]应该是一样的(因为只有一个9是top-1,而且都出错了)

四 本文评价算法:RankDCG

  1. 从一个例子开始分析:
  2. 下面两张图为standard DCG与别人改进的DCG在各个元素上的cost图:


  3. 不足之处:这两个算法都将一般以上的cost放在了最高rank的元素上,这会导致整个评价算法引导ranking的走向找到top-rank的元素而不是做好ordering工作。
  4. 所以文章做的第一个工作:提出了新的rel()函数,具体体现为将原来的变成:

    具体步骤是:在L中有10个rank值,但是只有4个不同的rank,所以按照rank value对元素进行分组,得到4,那个第一个sublist的rankvalue就改成4,后面的sublist依次递减。

  5. 这样可以得都到以下的结果图,可以看到整个cost下降更均衡了。


  6. 现在这样其实还有一个问题,基于位置的折损函数cost会导致本来rank value一样的值最后得到的cost却是不一样的,例如最后4个1。
  7. 文章做的第二个工作就是将基于位置的折损改成新的折损系统,具体方法是对L‘的rank value做一个翻转,将值依次赋给各个sublist。最后得到:


  8. 这时候的cost图为:


  9. 最后也模仿DCG->nDCG的过程,做了一次归一化,即最终的RankDCG算法等于:


写在最后

写完了嘻嘻~~

简书不支持公式真的有点小小的不方便,所有的公式都来自论文presentation的截图。

最后,不是做信息检索的,这篇论文只是课程的一个报告,有理解不正确或者不到位之处欢迎大佬评论获或者私信谢谢ヾ(◍°∇°◍)ノ゙

      </div>

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481067.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

肖仰华 | 基于知识图谱的用户理解

本文转载自公众号知识工场。 本文整理自肖仰华教授在三星电子中国研究院做的报告&#xff0c;题目为《Understanding users with knowldge graphs》。 今天&#xff0c;很高兴有这个机会来这里与大家交流。 前面两位老师把基于社会影响力的传播和推荐&#xff0c;以及跨领域的…

NLP的游戏规则从此改写?从word2vec, ELMo到BERT

前言还记得不久之前的机器阅读理解领域&#xff0c;微软和阿里在SQuAD上分别以R-Net和SLQA超过人类&#xff0c;百度在MS MARCO上凭借V-Net霸榜并在BLEU上超过人类。这些网络可以说一个比一个复杂&#xff0c;似乎“如何设计出一个更work的task-specific的网络"变成了NLP领…

信息检索IR评价中常见的评价指标-MAP\NDCG\ERR\P@10等

信息检索评价是对信息检索系统性能&#xff08;主要满足用户信息需求的能力&#xff09;进行评估的活动。通过评估可以评价不同技术的优劣&#xff0c;不同因素对系统的影响&#xff0c;从而促进本领域研究水平的不断提高。信息检索系统的目标是较少消耗情况下尽快、全面返回准…

科普 | “开放知识”的定义

OpenKG 主要关注知识图谱数据&#xff08;或者称为结构化数据、语义数据、知识库&#xff09;的开放&#xff0c;广义上 OpenKG 属于开放数据的一种。 关于“开放”的定义&#xff0c;比较好的参考是由国际开放知识基金会 OKFN.ORG(Open Knowledge International)给与的“开放知…

科普 | 以链接为中心的系统:Link-based Systems

硅谷教父凯文凯利在他新书《必然》中谈到了网页 2.0&#xff1a;“…今天的网络就是所有可以访问到的超链接文件… 但在未来的 30 年中…超链接的触手会不断延伸&#xff0c;把所有的比特连接起来。一个主机游戏中发生的事件会像新闻一样搜索即得。你还能寻找一段 YouTube 视频…

优云软件数据专家最佳实践:数据挖掘与运维分析

优云软件数据专家最佳实践&#xff1a;数据挖掘与运维分析 这份研究报告&#xff0c;作者是优云软件数据专家陈是维&#xff0c;在耗时1年时间制作的一份最佳实践&#xff0c;今天和大家分享下&#xff0c;关于《数据采矿和运维分析》&#xff0c;共同探讨~ 数据挖掘&#xff0…

史上最全提升GPU的tricks合集

前言 首先&#xff0c;如果你现在已经很熟悉tf.dataestimator了&#xff0c;可以把文章x掉了╮(&#xffe3;▽&#xffe3;””)╭ 但是&#xff01;如果现在还是在进行session.run(..)的话&#xff01;尤其是苦恼于GPU显存都塞满了利用率却上不去的童鞋&#xff0c;这篇文章或…

领域应用 | 图数据库及其在恒昌的应用简介

首发于知乎专栏知识图谱和智能问答&#xff0c;作者为量子胖比特。 背景 历史上&#xff0c;多数企业级应用都运行在一个关系型数据库上&#xff08;RDBMS&#xff09;&#xff0c;近年来&#xff0c;随着数据存储技术的飞速发展&#xff0c;关系型数据库在灵活性和可伸缩性方面…

训练效率低?GPU利用率上不去?快来看看别人家的tricks吧~

前言首先&#xff0c;如果你现在已经很熟悉tf.dataestimator了&#xff0c;可以把文章x掉了╮(&#xffe3;▽&#xffe3;””)╭但是&#xff01;如果现在还是在进行session.run(..)的话&#xff01;尤其是苦恼于GPU显存都塞满了利用率却上不去的童鞋&#xff0c;这篇文章或许…

科普 | 典型的知识库/链接数据/知识图谱项目

从人工智能的概念被提出开始&#xff0c;构建大规模的知识库一直都是人工智能、自然语言理解等领域的核心任务之一。下面首先分别介绍了早期的知识库项目和以互联网为基础构建的新一代知识库项目。并单独介绍了典型的中文知识图谱项目。 1. 早期的知识库项目 Cyc : Cyc 是持续…

【TensorFlow】优化方法optimizer总结(SGD,Adagrad,Adadelta,Adam,Adamax,Nadam)解析(十三)

版权声明&#xff1a;本文为博主原创文章&#xff0c;未经博主允许不得转载。 https://blog.csdn.net/brucewong0516/article/details/78838124 本文仅对一些常见的优化方法进行直观介绍和简单的比较&#xff0c;主要是一阶的梯度法&#xff0c;包括SGD, Momentum, Nesterov M…

【LeetCode】3月29日打卡-Day14-BFS

题1 地图分析 描述 你现在手里有一份大小为 N x N 的『地图』&#xff08;网格&#xff09; grid&#xff0c;上面的每个『区域』&#xff08;单元格&#xff09;都用 0 和 1 标记好了。其中 0 代表海洋&#xff0c;1 代表陆地&#xff0c;你知道距离陆地区域最远的海洋区域是…

技术论坛 | CCF YOCSEF上海即将在 CNCC 举办“知识图谱遇见社交媒体”专题论坛

中国计算机学会青年计算机科技论坛 CCF YoungComputer Scientists & Engineers Forum CCF YOCSEF上海 CNCC2017大会技术论坛 主题: 知识图谱遇见社交媒体 时间&#xff1a;2017年10月26日&#xff08;星期四&#xff09;13:30~17:30 地点&#xff1a;福州海峡国际会展中心会…

你确定自己不是那只猫吗

成为猫与养猫小的时候&#xff0c;小夕曾被告知兔子可爱是因为喜欢吃萝卜&#xff0c;导致小夕吃了好多萝北。上学后&#xff0c;会哄着小夕学习的就是好老师&#xff0c;强行让小夕背书的肯定是坏老师。找工作时&#xff0c;HR会给小夕画大饼&#xff0c;让小夕觉得自己即将去…

一文搞懂HMM(隐马尔可夫模型)-Viterbi algorithm

***一文搞懂HMM&#xff08;隐马尔可夫模型&#xff09;***简单来说&#xff0c;熵是表示物质系统状态的一种度量&#xff0c;用它老表征系统的无序程度。熵越大&#xff0c;系统越无序&#xff0c;意味着系统结构和运动的不确定和无规则&#xff1b;反之&#xff0c;&#xff…

课程 |《知识图谱》第一期

课程详情 课程名称: 《知识图谱》第一期 报名方式&#xff1a; 点击文末“阅读原文”&#xff0c;即可享受参团优惠报名哦&#xff01; 主讲老师&#xff1a; 王昊奋 著名知识图谱专家 博士毕业于上海交通大学&#xff0c;CCF术语专委会执委&#xff0c;中文信息学会语言与…

新闻 | 聚焦技术领域现状与发展阿里巴巴知识图谱专场亮相云栖大会 阿里知识图谱亮相云栖大会产学深度交流推进业务创新

14日&#xff0c;阿里巴巴知识图谱正式亮相云栖大会&#xff0c;本次活动邀请到诸多阿里技术专家与学界领军人物参会&#xff0c;一同探讨知识图谱领域的现状与远景&#xff0c;推动产业界与学术界深度交流。 知识图谱将信息表达成更接近人类认知世界的形式&#xff0c;提供了帮…

100篇论文串讲对话系统前世今生

不可以不可以&#xff0c;都在忙着过年呢&#xff0c;小夕怎么能推这种文章呢╮(╯▽╰)╭话说&#xff0c;大年初一你萌怎么能戳进来这种文章&#xff01;快&#xff0c;赶紧承认你是卖萌屋的真爱粉(&#xffe3;∇&#xffe3;)&#xff5e;小屋今天不卖干货&#xff0c;只送…

郑杰 | 如何拿回我们自己的医疗数据?

本文转载自公众号造就&#xff0c;作者郑杰&#xff0c;树兰医疗总裁&#xff0c;OMAHA 开放医疗与健康联盟发起人。 造就 大家好&#xff0c;我是郑杰&#xff0c;来自于杭州。我出生于一个医生世家&#xff0c;也在医院边上长大&#xff0c;但大学里我读的是计算机专业&#…

后BERT时代:15个预训练模型对比分析与关键点探究

前言在小夕之前写过的《NLP的游戏规则从此改写&#xff1f;从word2vec, ELMo到BERT》一文中&#xff0c;介绍了从word2vec到ELMo再到BERT的发展路径。而在BERT出现之后的这大半年的时间里&#xff0c;模型预训练的方法又被Google、Facebook、微软、百度、OpenAI等极少数几个玩得…