文 | 乐乐QvQ

搜索引擎之间有何不同？随着世界上最大的两家公司Google和Microsoft争夺Web Search空间的愈发激烈，一超多强的搜索格局已经形成。在目前眼花缭乱的搜索市场中，是搜索结果的千篇一律，九九归一；还是搜索结果的万花齐放，各有千秋？本文对Google和Bing这两个主要搜索引擎以及DuckDuckGo的 相似性 进行了详尽的分析，目的是探索搜索引擎受欢迎程度的差异除了搜索结果的 有效性 还和哪些因素有关。本文主要包含以下4方面内容：

（1）研究搜索引擎结果的相似性；

（2）随着时间推移其相似性的发展；

（3）影响搜索引擎结果相似性的因素；

（4）指标在不同种类的搜索服务上的差异。

最终结果表明：在搜索结果上Google展现出与其他两家的明显差异，但Bing和DuckDuckGo在搜索结果上很大程度没有区别。

论文题目：《Search Engine Similarity Analysis: A CombinedContent and Rankings Approach》

论文链接:https://arxiv.org/abs/2011.00650

Arxiv访问慢的小伙伴也可以在【夕小瑶的卖萌屋】订阅号后台回复关键词【1123】下载论文PDF~

问题出现

搜索引擎之战从未停止，不断演进的搜索算法旨在产生更准确的结果以更好地响应用户需求，而搜索引擎的内部运作又是公司的核心机密。例如，尽管我们知道Google以PageRank为搜索的基础，但我们也知道当前的Google服务使用了许多专有机制。对于每一家拥有独立搜索引擎的公司：Bing、百度等也是如此。

搜索引擎市场的普及之战是一场持续不断的游戏。例如披露个人数据滥用和更严格的数据保护政策的出现，影响了市场的发展。深入研究美国搜索引擎近三年来的发展情况，可以发现Google的市场份额增长了5.45％，Bing的市场份额下降了18.13％，而DuckDuckGo的市场份额几乎增长了四倍。后者是一个竭尽全力满足注重隐私的用户需求的搜索引擎，尽管与上述竞争对手相比，它所占的份额很小，但其可观的增长表明，与已建立成熟的市场竞争对手相比，它具有很大的潜力。

同时，搜索引擎发展迅速，返回的结果比过去的“ 十个蓝色链接 ”要丰富得多。如今，搜索结果包括精心制作的页面标题和详细的文本片段，同时还汇总了来自多个专门搜索服务（称为“垂直领域”）的相关内容，例如图像，视频，商业地图或天气预报。这些优势凸显了新的用户交互模式的价值。然而这使得评价搜索引擎的优劣麻烦了许多，即使常规的结果排名方法仍可以用于搜索引擎比较，它本质上是问题的一阶近似，但没有考虑到当前的异构用户体验。

先来吃瓜

先上结论，本文使用metric T比较了三种搜索引擎Google，Bing和DuckDuckGo（以下称DDG）的多种查询类型。Google和Bing是两个主要研究的搜索引擎。DDG采用了不同的理念，对用户的私密性给予了高度重视。在本文的实证评估中，本文尝试回答以下五个研究问题(Research Question,下文简称RQ)：

搜索引擎会产生类似的Web结果吗？
搜索引擎之间的相似性是否随时间推移而一致？
网络结果的哪个方面（即排名或内容）对搜索引擎的相似性影响最大？
搜索引擎针对不同种类的搜索服务会产生相似的结果吗？
metric T产生的结果与最新技术有何关系？

RQ1

实验通过采用metric T估算了Google，Bing和DDG之间的相似性。具体来说，实验对每个时间每个查询比较每个搜索引擎对的Web结果，从而得出三个二维相似性数组D。每个代表第天的第类查询中两个搜索引擎之间的相似性。(矩阵中的每个小块颜色越“蓝”代表结果越相似，红色反之)

结论：在大多数查询中，Google与Bing和DDG的结果区分明显，而后两者在彼此之间几乎没有区别。

RQ2

为了估算一段时间内搜索引擎行为的一致性，我们计算了每天和搜索引擎结果对的平均相似性得分（由metric T计算）。下图展示了每个搜索引擎对随时间的平均相似度。该图清楚地表明，搜索引擎的相似性随时间变化几乎是恒定的。该实验的结果表明，要么搜索引擎不会显着改变其行为，要么它们的行为以相同的方式改变。

比较2016年和2019年搜索引擎的相似度。对于每个搜索引擎对，我们评估它们在2016年和2019年每个查询类别的相似度。我们观察到，搜索引擎的相似度长期不会发生显着变化。Bing-DDG的结果对是2016年和2019年最相似的。

结论：与Bing-Google和Google-DDG相比，Bing和DDG彼此之间更加相似。尽管搜索结果会发生个别更改，但从长远来看，它们的成对相似性几乎是稳定的。

RQ3

与现有方法不同，metric T既可以捕获结果的顺序（即换位），也可以捕获结果的内容（即摘要，标题）。因此，我们可以估算每个因素对搜索引擎之间差异的贡献程度。为此，实验为每个因子实例化具有不同权重的metric T（等式2中的a，b，c）。实验首先将metric T的base weights设置为的基准度量。实验为所有查询和日期计算每个比较对的平均相似度。从概念上讲，metric T base仅考虑重叠结果的数量，通过改变a = 0.1、0.2，...，1，同时保持b = c = 0来检查代码片段的效果。类似地，我们通过改变频段同时保持其他两个权重固定为零来检查标题和摘要的效果。

结论：摘要是所有比较对之间的差异影响最大的，其中Google产生的差异最大。所有的搜索引擎都倾向于把它们共同的结果放在邻接的位置。最后，所有的搜索引擎产生几乎相同的标题。

RQ4

除了标准的Web搜索之外，搜索引擎还为用户提供一系列不同服务，例如新闻，图像和视频搜索。我们调查了有关搜索引擎之间相似性的调查结果是否适用于2019年的“新闻搜索”——将其他服务作为文本结果的度量标准而排除在外。我们创建了一组30条新闻查询；其中20个摘自2019年5月的Google新闻趋势，其余10个是通用新闻主题，例如“洪水”。

结论：不同的搜索引擎服务产生的结果有相当大的差异。

RQ5

使用不同指标的所有搜索引擎对的相似性。对于Bing-Google和Google-DDG比较，metric T的box plots图低于其他度量，因为它有效地考虑了它们在结果内容上的重大分歧。

与其他Metric T相比，Metric T表现出一致的行为。但是，当内容相似度下降时，metric T的diff结果将与其他度量的结果不同。

评估标准T

吃瓜看戏到此为止，下面我来看看本文是如何评价搜索结果相似性的。本文引入了一个新的度量标准，称为***T***，用以研究搜索引擎的相似性。

问题表述

接下来，我们假设对于两个搜索引擎A和B，我们有两个列表和分别表示两个搜索引擎中对于同一条搜索query的TopN结果。

通常，搜索引擎产生的响应包括结果的网址标识符、结果标题和描述网页内容的代码段。随着搜索引擎的发展和用户体验的变化，搜索结果的顺序并不是决定用户交互方式的唯一因素。具体来说，摘要和标题与用户决定点击特定页面的行为息息相关。因此，搜索引擎应该比较全面的考虑以上三个方面，以便准确地评估引擎相似度。

为了进一步强调 摘要和标题 的重要性，如表一所示，该表显示了Google和Bing对于“Steven Wilson”查询返回的最好结果。尽管搜索引擎在顺序和URL指向上是一致的（即，两个结果都指向http://stevenwilsonhq.com/sw/），但它们会产生完全不同的摘要段。根据用户的搜索条件，不同的摘要段落在吸引用户点击上可能比另一个更有效。例如，Bing制作的片段着重于该艺术家最喜欢的电影导演，因此当用户搜索有关该艺术家的一般信息时，它可能是一个很好的片段。而Google的摘要选取了他的和他新专辑发行相关的音乐新闻。

▲“Steven Wilson”的结果

综上所述由于搜索引擎结果的排名无法完全体现出它们的相似性，因此我们需要更全面的相似性评价指标。这应满足以下四个条件：

共现URL（结果）的数量。搜索引擎A和B共享在其TopN结果中共同出现的URL越多，它们的相似度就越高。
共现URL的距离。如果在A和B的结果中都出现一个URL，则随着两个结果列表中元素的距离增加，A和B的相似性也会降低。
相似性权重随着结果序位的增加而降低。例如，最高结果的一致性比第三或第四结果的相似性权重更大。
如果两个搜索引擎相似，则除了返回相似结果外，它们还会产生相似的标题和摘要。

出发点

作为定义搜索引擎吸引力度的基础，我们采用Jaro-Winkler距离，它是Jaro距离的一种变体，主要应用于记录链接问题，其目标是基于共同元素及其之间的换位数来计算两个字符串之间的相似性。两个字符串S1和S2的Jaro距离由下式给出：

上式中：

表示匹配字符的数量。如果两个字符相同且位置相差不超过，则视为匹配。
表示换位的数量。两个字符串中顺序不同的匹配字符的一半。

例如，假设我们比较了一对长度为n = 10的结果集合，并且得到了匹配元素的数量m = 2。根据等式1，如果t = 0，则这一项等于1，它对整体相似度贡献的值为，这种情况使得匹配项的数量较少时，对整体的相似度贡献反而越多（因为匹配项较少时，换位的可能性更低）。为了考虑搜索引擎返回的摘录和标题，我们将Jaro-Winkler距离调整为如下表示：

其中，表示结果集合长度，是公共结果的数量，是摘要之间区别的惩罚，是标题之间区别的惩罚，是换位的惩罚，是摘要，标题和换位惩罚对应的权重。值得注意的是，该式计算的惩罚和是与结果列表的长度之比，而不是与匹配元素的数量之比。因为和具有相同的长度,同样我们可以使用。

另外，当前个字符都完全匹配时，Jaro-Winkler距离通过使用缩放因子p增大其表示：

惩罚计算

换位

两个列表中出现的元素位置的绝对差之和用于计算“换位数”。对于结果列表，惩罚计算如下，其中是a在R列表中的位置

换位惩罚用其上限进行标准化。可以证明，在两个列表的长度为n的情况下，|RA∩RB|的上限为：

其中：

标题和摘要

摘要和标题相关的惩罚的过程对于相似性计算来说都是很常见的。由搜索引擎A和B生成的摘要和标题的句子分别是:

(1) 我们对句子进行标记，并消除所有停用词以及查询词。

(2) 获取出现在两个句子中的所有有标记单词的并集，并计算相应的频率，从而形成两个向量，其中这两个向量代表实际的摘要或标题。

(3) 计算两个向量的余弦距离。

(4) 对所有结果重复此过程，然后求和所有距离，可以计算出总损失。

一致性提升

对于同位置的返回结果，Jaro-Winkler度量标准均等地作用于每一个可以显示匹配的字符。但是，当我们在结果列表中按顺序排列时，我们要求一致性评价的权重递减。为了做到这一点，当出现共同结果的位置满足时，完全匹配或相邻匹配在结果列表的开始处更为重要。

最终T计算

最终的相似性指标将重叠结果的数量以及结果的顺序、摘要和标题结合在一起，由下式计算得到出：

其中：

该式可以满足前文所提到的C1-C4所有制约条件。

数据集

实验的数据集总共包含约27,600个Top-10列表。为了组合这些搜索结果，本文构造了10类查询（如下表）。每个类别包含大约30个query；其中20个选择了2016年5月版的Google Trends，鉴于无法测试所有可能的查询，实验选择了可能会影响大量用户的热门查询。此外，为了实现代表性，本文在每个类别中增加了10个自定义的query，以便包括那些较不流行但并非罕见的搜索情况。

小结

虽说已经有许多度量标准来评估搜索引擎结果的相似性。但是，它们中的大多数都只专注于搜索结果的排名。本文提出的指标背后的核心思路是，通过将搜索结果的语义特征纳入排名距离方法中，从而估算搜索引擎的相似度。另外，Metric T的内容意识旨在更好地反映实际的用户体验。实验中指标的双重性质可实现更具表达力和更强壮的相似度得分，并区分出搜索引擎行为中的重要差异，而其他排名距离指标则不明显。

萌屋作者：QvQ。
硕士毕业于中国科学院大学，前ACM校队队长，区域赛金牌。竞赛混子，Kaggle两金一银，国内外各大NLP、大数据竞赛Top10。校招拿下国内外数十家大厂offer，超过半数的SSP。目前在百度大搜担任搜索算法工程师。知乎ID：QvQ
作品推荐：
1.13个offer，8家SSP，谈谈我的秋招经验
2.2020深度文本匹配最新进展：精度、速度我都要！
3.7款优秀Vim插件帮你打造完美IDE
4.他与她，一个两年前的故事