Bing与DuckDuckGo搜索结果惊人一致?Google展现强势差异

文 | 乐乐QvQ


搜索引擎之间有何不同?随着世界上最大的两家公司Google和Microsoft争夺Web Search空间的愈发激烈,一超多强的搜索格局已经形成。在目前眼花缭乱的搜索市场中,是搜索结果的千篇一律,九九归一;还是搜索结果的万花齐放,各有千秋?本文对Google和Bing这两个主要搜索引擎以及DuckDuckGo的 相似性 进行了详尽的分析,目的是探索搜索引擎受欢迎程度的差异除了搜索结果的 有效性 还和哪些因素有关。本文主要包含以下4方面内容:

(1)研究搜索引擎结果的相似性;

(2)随着时间推移其相似性的发展;

(3)影响搜索引擎结果相似性的因素;

(4)指标在不同种类的搜索服务上的差异。

最终结果表明:在搜索结果上Google展现出与其他两家的明显差异,但Bing和DuckDuckGo在搜索结果上很大程度没有区别

论文题目:《Search Engine Similarity Analysis: A CombinedContent and Rankings Approach》

论文链接:https://arxiv.org/abs/2011.00650

Arxiv访问慢的小伙伴也可以在 【夕小瑶的卖萌屋】订阅号后台回复关键词 【1123】 下载论文PDF~

问题出现

搜索引擎之战从未停止,不断演进的搜索算法旨在产生更准确的结果以更好地响应用户需求,而搜索引擎的内部运作又是公司的核心机密。例如,尽管我们知道Google以PageRank为搜索的基础,但我们也知道当前的Google服务使用了许多专有机制。对于每一家拥有独立搜索引擎的公司:Bing、百度等也是如此。

搜索引擎市场的普及之战是一场持续不断的游戏。例如披露个人数据滥用和更严格的数据保护政策的出现,影响了市场的发展。深入研究美国搜索引擎近三年来的发展情况,可以发现Google的市场份额增长了5.45%,Bing的市场份额下降了18.13%,而DuckDuckGo的市场份额几乎增长了四倍。后者是一个竭尽全力满足注重隐私的用户需求的搜索引擎,尽管与上述竞争对手相比,它所占的份额很小,但其可观的增长表明,与已建立成熟的市场竞争对手相比,它具有很大的潜力。

同时,搜索引擎发展迅速,返回的结果比过去的“ 十个蓝色链接 ”要丰富得多。如今,搜索结果包括精心制作的页面标题和详细的文本片段,同时还汇总了来自多个专门搜索服务(称为“垂直领域”)的相关内容,例如图像,视频,商业地图或天气预报。这些优势凸显了新的用户交互模式的价值。然而这使得评价搜索引擎的优劣麻烦了许多,即使常规的结果排名方法仍可以用于搜索引擎比较,它本质上是问题的一阶近似,但没有考虑到当前的异构用户体验

先来吃瓜

先上结论,本文使用metric T比较了三种搜索引擎Google,Bing和DuckDuckGo(以下称DDG)的多种查询类型。Google和Bing是两个主要研究的搜索引擎。DDG采用了不同的理念,对用户的私密性给予了高度重视。在本文的实证评估中,本文尝试回答以下五个研究问题(Research Question,下文简称RQ):

  • 搜索引擎会产生类似的Web结果吗?

  • 搜索引擎之间的相似性是否随时间推移而一致?

  • 网络结果的哪个方面(即排名或内容)对搜索引擎的相似性影响最大?

  • 搜索引擎针对不同种类的搜索服务会产生相似的结果吗?

  • metric T产生的结果与最新技术有何关系?

RQ1

实验通过采用metric T估算了Google,Bing和DDG之间的相似性。具体来说,实验对每个时间每个查询比较每个搜索引擎对的Web结果,从而得出三个二维相似性数组D。每个代表第 天的第 类查询中两个搜索引擎之间的相似性。(矩阵中的每个小块颜色越“蓝”代表结果越相似,红色反之)

结论:在大多数查询中,Google与Bing和DDG的结果区分明显,而后两者在彼此之间几乎没有区别。

RQ2

为了估算一段时间内搜索引擎行为的一致性,我们计算了每天和搜索引擎结果对的平均相似性得分(由metric T计算)。下图展示了每个搜索引擎对随时间的平均相似度。该图清楚地表明,搜索引擎的相似性随时间变化几乎是恒定的。该实验的结果表明,要么搜索引擎不会显着改变其行为,要么它们的行为以相同的方式改变

比较2016年和2019年搜索引擎的相似度。对于每个搜索引擎对,我们评估它们在2016年和2019年每个查询类别的相似度。我们观察到,搜索引擎的相似度长期不会发生显着变化。Bing-DDG的结果对是2016年和2019年最相似的。

结论:与Bing-Google和Google-DDG相比,Bing和DDG彼此之间更加相似。尽管搜索结果会发生个别更改,但从长远来看,它们的成对相似性几乎是稳定的。

RQ3

与现有方法不同,metric T既可以捕获结果的顺序(即换位),也可以捕获结果的内容(即摘要,标题)。因此,我们可以估算每个因素对搜索引擎之间差异的贡献程度。为此,实验为每个因子实例化具有不同权重的metric T(等式2中的a,b,c)。实验首先将metric T的base weights设置为的基准度量。实验为所有查询和日期计算每个比较对的平均相似度。从概念上讲,metric T base仅考虑重叠结果的数量,通过改变a = 0.1、0.2,...,1,同时保持b = c = 0来检查代码片段的效果。类似地,我们通过改变频段同时保持其他两个权重固定为零来检查标题和摘要的效果。

结论:摘要是所有比较对之间的差异影响最大的,其中Google产生的差异最大。所有的搜索引擎都倾向于把它们共同的结果放在邻接的位置。最后,所有的搜索引擎产生几乎相同的标题。

RQ4

除了标准的Web搜索之外,搜索引擎还为用户提供一系列不同服务,例如新闻,图像和视频搜索。我们调查了有关搜索引擎之间相似性的调查结果是否适用于2019年的“新闻搜索”——将其他服务作为文本结果的度量标准而排除在外。我们创建了一组30条新闻查询;其中20个摘自2019年5月的Google新闻趋势,其余10个是通用新闻主题,例如“洪水”。

结论:不同的搜索引擎服务产生的结果有相当大的差异。

RQ5

使用不同指标的所有搜索引擎对的相似性。对于Bing-Google和Google-DDG比较,metric T的box plots图低于其他度量,因为它有效地考虑了它们在结果内容上的重大分歧。

与其他Metric T相比,Metric T表现出一致的行为。但是,当内容相似度下降时,metric T的diff结果将与其他度量的结果不同。

评估标准T

吃瓜看戏到此为止,下面我来看看本文是如何评价搜索结果相似性的。本文引入了一个新的度量标准,称为***T***,用以研究搜索引擎的相似性。

问题表述

接下来,我们假设对于两个搜索引擎A和B,我们有两个列表 分别表示两个搜索引擎中对于同一条搜索query的TopN结果。

通常,搜索引擎产生的响应包括结果的网址标识符、结果标题和描述网页内容的代码段。随着搜索引擎的发展和用户体验的变化,搜索结果的顺序并不是决定用户交互方式的唯一因素。具体来说,摘要和标题与用户决定点击特定页面的行为息息相关。因此,搜索引擎应该比较全面的考虑以上三个方面,以便准确地评估引擎相似度。

为了进一步强调 摘要和标题 的重要性,如表一所示,该表显示了Google和Bing对于“Steven Wilson”查询返回的最好结果。尽管搜索引擎在顺序和URL指向上是一致的(即,两个结果都指向http://stevenwilsonhq.com/sw/),但它们会产生完全不同的摘要段。根据用户的搜索条件,不同的摘要段落在吸引用户点击上可能比另一个更有效。例如,Bing制作的片段着重于该艺术家最喜欢的电影导演,因此当用户搜索有关该艺术家的一般信息时,它可能是一个很好的片段。而Google的摘要选取了他的和他新专辑发行相关的音乐新闻。

▲“Steven Wilson”的结果

综上所述由于搜索引擎结果的排名无法完全体现出它们的相似性,因此我们需要更全面的相似性评价指标。这应满足以下四个条件:

  • 共现URL(结果)的数量。搜索引擎A和B共享在其TopN结果中共同出现的URL越多,它们的相似度就越高。

  • 共现URL的距离。如果在A和B的结果中都出现一个URL,则随着两个结果列表中元素的距离增加,A和B的相似性也会降低。

  • 相似性权重随着结果序位的增加而降低。例如,最高结果的一致性比第三或第四结果的相似性权重更大。

  • 如果两个搜索引擎相似,则除了返回相似结果外,它们还会产生相似的标题和摘要。

出发点

作为定义搜索引擎吸引力度的基础,我们采用Jaro-Winkler距离,它是Jaro距离的一种变体,主要应用于记录链接问题,其目标是基于共同元素及其之间的换位数来计算两个字符串之间的相似性。两个字符串S1和S2的Jaro距离由下式给出:

上式中:

  • 表示匹配字符的数量。如果两个字符相同且位置相差不超过,则视为匹配。

  • 表示换位的数量。两个字符串中顺序不同的匹配字符的一半。

例如,假设我们比较了一对长度为n = 10的结果集合,并且得到了匹配元素的数量m = 2。根据等式1,如果t = 0,则这一项等于1,它对整体相似度贡献的值为,这种情况使得匹配项的数量较少时,对整体的相似度贡献反而越多(因为匹配项较少时,换位的可能性更低)。为了考虑搜索引擎返回的摘录和标题,我们将Jaro-Winkler距离调整为如下表示:

其中,表示结果集合长度,是公共结果的数量,是摘要之间区别的惩罚,是标题之间区别的惩罚,是换位的惩罚,是摘要,标题和换位惩罚对应的权重。值得注意的是,该式计算的惩罚是与结果列表的长度之比,而不是与匹配元素的数量之比。因为具有相同的长度,同样我们可以使用代替

另外,当前个字符都完全匹配时,Jaro-Winkler距离通过使用缩放因子p增大其表示:

惩罚计算

  • 换位

两个列表中出现的元素位置的绝对差之和用于计算“换位数”。对于结果列表,惩罚计算如下,其中是a在R列表中的位置

换位惩罚用其上限进行标准化。可以证明,在两个列表的长度为n的情况下,|RA∩RB|的上限为:

其中:

  • 标题和摘要

摘要和标题相关的惩罚的过程对于相似性计算来说都是很常见的。由搜索引擎A和B生成的摘要和标题的句子分别是:

(1) 我们对句子进行标记,并消除所有停用词以及查询词。

(2) 获取出现在两个句子中的所有有标记单词的并集,并计算相应的频率,从而形成两个向量,其中这两个向量代表实际的摘要或标题。

(3) 计算两个向量的余弦距离

(4) 对所有结果重复此过程,然后求和所有距离,可以计算出总损失。

一致性提升

对于同位置的返回结果,Jaro-Winkler度量标准均等地作用于每一个可以显示匹配的字符。但是,当我们在结果列表中按顺序排列时,我们要求一致性评价的权重递减。为了做到这一点,当出现共同结果的位置满足时,完全匹配或相邻匹配在结果列表的开始处更为重要。

最终T计算

最终的相似性指标将重叠结果的数量以及结果的顺序、摘要和标题结合在一起,由下式计算得到出:

其中:

该式可以满足前文所提到的C1-C4所有制约条件。

数据集

实验的数据集总共包含约27,600个Top-10列表。为了组合这些搜索结果,本文构造了10类查询(如下表)。每个类别包含大约30个query;其中20个选择了2016年5月版的Google Trends,鉴于无法测试所有可能的查询,实验选择了可能会影响大量用户的热门查询。此外,为了实现代表性,本文在每个类别中增加了10个自定义的query,以便包括那些较不流行但并非罕见的搜索情况。

小结

虽说已经有许多度量标准来评估搜索引擎结果的相似性。但是,它们中的大多数都只专注于搜索结果的排名。本文提出的指标背后的核心思路是,通过将搜索结果的语义特征纳入排名距离方法中,从而估算搜索引擎的相似度。另外,Metric T的内容意识旨在更好地反映实际的用户体验。实验中指标的双重性质可实现更具表达力和更强壮的相似度得分,并区分出搜索引擎行为中的重要差异,而其他排名距离指标则不明显。

萌屋作者:QvQ

硕士毕业于中国科学院大学,前ACM校队队长,区域赛金牌。竞赛混子,Kaggle两金一银,国内外各大NLP、大数据竞赛Top10。校招拿下国内外数十家大厂offer,超过半数的SSP。目前在百度大搜担任搜索算法工程师。知乎ID:QvQ

作品推荐:

1.13个offer,8家SSP,谈谈我的秋招经验

2.2020深度文本匹配最新进展:精度、速度我都要!

3.7款优秀Vim插件帮你打造完美IDE

4.他与她,一个两年前的故事

后台回复关键词【入群

加入卖萌屋NLP/IR/Rec与求职讨论群

有顶会审稿人、大厂研究员、知乎大V和妹纸

等你来撩哦~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/479687.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

图解gpt-2

原文链接&#xff1a;https://www.sohu.com/a/336262203_129720 完全图解GPT-2&#xff1a;看完这篇就够了&#xff08;一&#xff09; 2019-08-25 12:47 来源:机器之心Pro </div>原标题&#xff1a;完全图解GPT-2&#xff1a;看完这篇就够了&#xff08;一&#xff0…

java程序员学习路线以及我的学习经验

本文作者为优知学院创始人陈睿&#xff08;mike&#xff09;,作者有10年以上技术&产品经验&#xff0c;曾任百度研发经理、携程定制旅游CTO。 “ 这是一篇完整的java程序员学习线路图&#xff0c;一共分为六个阶段。 我以java为例&#xff0c;展示完整的学习步骤。 最后…

这几个模型不讲“模德”,我劝它们耗子尾汁

文 | Sheryc_王苏NLP模型要以和为贵&#xff0c;要讲“模德”&#xff08;Modal&#xff09;&#xff0c;不要搞窝里斗。——《王苏老师被多模态预训练模型偷袭实录》&#xff08;全文在末尾&#xff0c;必读&#xff09;最近是不是被马保国“不讲武德”“耗子尾汁”的视频和语…

Java多线程系列(六):深入详解Synchronized同步锁的底层实现

谈到多线程就不得不谈到Synchronized&#xff0c;很多同学只会使用&#xff0c;缺不是很明白整个Synchronized的底层实现原理&#xff0c;这也是面试经常被问到的环节,比如&#xff1a; synchronized的底层实现原理 synchronized锁与JVM的实现 synchronized锁升级顺序 sync…

LeetCode 89. 格雷编码

文章目录1. 题目信息2. 解题1. 题目信息 格雷编码是一个二进制数字系统&#xff0c;在该系统中&#xff0c;两个连续的数值仅有一个位数的差异。 给定一个代表编码总位数的非负整数 n&#xff0c;打印其格雷编码序列。格雷编码序列必须以 0 开头。 示例 1:输入: 2 输出: [0,…

分布式数据层中间件详解:如何实现分库分表+动态数据源+读写分离

分布式数据层中间件&#xff1a; 1.简介&#xff1a; 分布式数据访问层中间件&#xff0c;旨在为供一个通用数据访问层服务&#xff0c;支持MySQL动态数据源、读写分离、分布式唯一主键生成器、分库分表、动态化配置等功能&#xff0c;并且支持从客户端角度对数据源的各方面&a…

清华硕士眼中的2021届算法岗秋招

文 | 李金泽一晃接近三个月过去了&#xff0c;秋招也到了尾声&#xff0c;之前一直忙于写毕业论文&#xff0c;现在在这里想总结一些自己求职互联网大厂算法岗的面经和心得&#xff0c;希望帮助后来的学弟学妹们收获自己心仪的offer。今年的算法岗求职较往年竞争也更加激烈&…

LeetCode 124. 二叉树中的最大路径和(DFS)

文章目录1. 题目信息2. 解题1. 题目信息 给定一个非空二叉树&#xff0c;返回其最大路径和。 本题中&#xff0c;路径被定义为一条从树中任意节点出发&#xff0c;达到任意节点的序列。该路径至少包含一个节点&#xff0c;且不一定经过根节点。 示例 1:输入: [1,2,3]1/ \2 …

Python的reshape的用法:reshape(1,-1)

Python的reshape的用法&#xff1a;reshape(1,-1)https://blog.csdn.net/qq_29831163/article/details/90112000 目录 numpy中reshape函数的三种常见相关用法 reshape(1,-1)转化成1行&#xff1a; reshape(2,-1)转换成两行&#xff1a; reshape(-1,1)转换成1列&#xff1a; …

阿里P8架构师谈:流量高峰时期的性能瓶颈有哪些、以及如何来解决

在高并发大量用户的场景&#xff0c;系统一般会面临如下三个挑战&#xff1a; 1. 日益增长的用户数量 2. 日渐复杂的业务 3. 急剧膨胀的数据 这些挑战对于性能优化而言表现为&#xff1a;在保持和降低系统TP95响应时间&#xff08;指的是将一段时间内的请求响应时间从低到高…

详解凸优化、图神经网络、强化学习、贝叶斯方法等四大主题

加入AI行业拿到高薪仅仅是职业生涯的开始。现阶段AI人才结构在不断升级&#xff0c;对AI人才的要求也不断升高&#xff0c;如果对自己没有很高的要求&#xff0c;其实很容易被快速发展的趋势所淘汰。为了迎合时代的需求&#xff0c;我们去年推出了《机器学习高端训练营》班。这…

可扩展的TextView,ExpandableTextView与Scroller类的使用

转载时请注明出处&#xff0c;尊重他人的劳动成果&#xff0c;谢谢。 废话不多说&#xff0c;先上图演示下成果(图有些丑&#xff0c;别见怪)&#xff1a; 最近一直在研究Scroller类的使用方法&#xff0c;看了很多遍别人的例子总是感觉不得要领&#xff0c;最后还是自己实践…

消息中间件系列(三):主流的消息队列中间件有哪些?

消息队列已经逐渐成为企业IT系统内部通信的核心手段。它具有低耦合、可靠投递、广播、流量控制、最终一致性等一系列功能&#xff0c;成为异步RPC的主要手段之一。 当今市面上有很多主流的消息中间件&#xff0c;如老牌的ActiveMQ、RabbitMQ&#xff0c;炙手可热的Kafka&#…

谷歌40人发表59页长文:为何真实场景中ML模型表现不好?

文 | 白鹡鸰编 | 夕小瑶大家好哇&#xff0c;我是上周那篇《NLP太卷了&#xff0c;我去研究蛋白质了》的漫画作者白鹡鸰~前不久&#xff0c;在卖萌屋NLP群里默默潜水的白鹡鸰被群友提到的一篇Google几天前放出的59页超长论文炸得飞了起来。来&#xff0c;大家来感受一下气势浩大…

圆形进度条以及百分率指示器 Scroller类的练习

转载时请注明出处&#xff0c;尊重他人的劳动成果&#xff0c;谢谢。 先附上效果图&#xff1a; 这个控件是动态加载到75%的&#xff0c;主要我忘了怎么做动态图&#xff0c;就先放一个静态图在这里表示表示。旁边这个没有没有喜欢的&#xff1f;有想知道的 我可以告诉答案。…

阿里P8架构师谈:从单体架构、到SOA、再到微服务的架构设计详解

本文涉及的内容以及知识点如下&#xff1a; 1、单体架构 2、单体架构的拆分 3、SOA与微服务的区别 4、微服务的优缺点 5、微服务的消息 6、服务集成 7、数据的去中心化 单体架构 Web应用程序发展的早期&#xff0c;大部分web工程是将所有的功能模块&#xff08;service…

我拿乐谱训了个语言模型!

文 | 花椒最近在刷EMNLP论文的时候发现一篇非常有趣的论文《Learning Music Helps You Read: Using Transfer to Study Linguistic Structure in Language Models》&#xff0c;来自斯坦福大学NLP组。论文有趣的发现是让语言模型先在乐谱上进行训练&#xff0c;再在自然语言上训…