打破 Google 破坏性的搜索垄断

作者:Ryan Cooper

译者:Sambodhi

策划:刘燕

近来,Google 在搜索算法方面的垄断地位,频繁引起美国和欧洲的反垄断关注。

Google 在网络搜索方面有绝对的优势。近来,Google 在搜索算法方面的垄断地位,也就是搜索引擎将 Google 自己的内容放在搜索结果的首位,自然引起了美国和欧洲的反垄断关注。

但是,Google 搜索业务的垄断并非唯一。由于拥有目前为止最大最好的在线索引,Google 的地位受到了保护。

Daisuke Wakabayashi 在《纽约时报》(The New York Times)上写道,软件工程师 Zack Maril 成立了一个名为 “Knucklehead Club”(傻瓜俱乐部)的组织(因为只有傻瓜才会挑战如此有钱有势的公司)来研究并唤起人们对这一事实的关注。

基于结构上的原因,我将在下面解释,为了建立这样一个索引而 “抓取”网络的行为是自然的垄断行为,而且由于 Google 的低调行为,没有人会对其主导地位提出真正的挑战。“一般来说,人们不会谈论这个问题,因为人们对它知之甚少。” Maril 在接受采访时告诉《周刊报道》(The Week)。世界各国政府都应该从公共利益的角度出发,对这家公司进行监管,或者干脆接管。

首先,让我解释一下机制。在经济学术语中,自然垄断指的是高固定成本和低边际成本的市场。电力就是一个典型的例子,它需要巨大的初始投资来建造发电厂,并将电线拉到每家每户,此后,每增加 1 度电的成本几乎为零。一家公司一旦建立了这样的网络,刚刚起步的新公司就几乎不可能与之竞争了。

Google 的网络爬虫也基本上处于相似的位置。原因如下:要运行搜索引擎,你需要对互联网建立一个索引,这样就可以搜索到东西了(就像图书馆里的卡片目录一样)。这样的话,就必须定期抓取互联网,尽可能多地复制网页,这样索引就能尽可能地广泛和最新。

这就给竞争设置了两个障碍。第一点,也是最明显的,互联网是巨大的,因此要建立一个能看到其中哪怕一小部分的爬虫,都需要巨大的投资。很长时间以来,Google 一直遥遥领先,以至于另一个科技巨头微软才开始参与竞争。

第二点,更为微妙的是,网站所有者有限制所有非 Google 爬虫的动机。创建一种互联网规模的爬虫可能很昂贵,但是创建一种只会抓取少量网站的爬虫是很便宜的,人们之所以这样做是有很多原因的。网站带宽是要花钱的,而爬虫的自动操作会消耗大量的带宽。

因此,很多管理员禁止所有类似爬虫的活动,但 Google 却获得了豁免,因为 Google 的搜索结果显示对流量有很大影响。(Knucklehead Club 的研究还表明,Google 从许多网站 获得的利益甚至比这更多)。

以上两点意味着,任何新公司都不可能对 Google 网络索引的统治地位构成严重威胁。大多数网站都会禁止任何新的主要爬虫,因为它占用了网站的流量,并且带来的回报很小,但是新的搜索引擎也不能增加流量,正因为它不能开发合适的索引来吸引用户。

甚至微软,在它的搜索引擎必应花了几年时间,耗费了几十亿美元,但还是远远落后于他们。正因为它不能开发合适的索引来吸引用户。甚至微软,在它的搜索引擎 Bing(必应)花了几年时间,花了几十亿美元,但还是远远落后于他们。

对于外行人来说,这也许没什么大不了的。毕竟,Google 很不错,所以我们大概不需要创建更多的网络索引,或者迫使 Google 让其他人使用它的索引,对吗?甚至在搜索方面,人们对此也不太清楚。

举例来说,Google 在某些领域变得极端糟糕,如产品评论,其 搜索结果常常被大量腐败的、算法博弈的垃圾内容或其自身的广告弄得乱七八糟。假如其它公司也能参与竞争,我们就可以看到它们在一些特定的任务,甚至仅仅是在普通搜索方面打败 Google 的搜索引擎。

但更深层次的问题是,控制唯一优秀的互联网索引有很大的优势。Maril 告诉《周刊报道》,这个庞大的数据宝库让 Google “在机器学习和人工智能方面难以置信的优势”。举例来说,机器翻译,“只有当你达到数据的临界点时,它才会起作用”。

同样的道理,从其他网站的角度来考虑,确保能够被 Google 抓取,看起来不像是某种恩惠,而更像是必须缴纳的 “Google 税”,他说。任何拥有网站的人,只需花点时间和金钱,就可以让 Google 索引他们的网页,以免他们无法被网民发现。这些数据将给公司带来越来越难以逾越的竞争优势。

正如我 之前所论述 的那样,Google 之所以如此强大,如此有利可图,很大程度上是因为先发优势和网络效应。它在正确的时间,出现在正确的地方,用一个比其他人更好的搜索引擎,这种优势滚雪球般地成为了对唯一存在的,或者说能够存在的(至少在目前的现状下)良好的网络索引的私有控制。

只有 Google 才有权使用这些数据,这是不公平的,但是也不清楚有多少商业和研究想法会因为没人能得到他们的数据而被扼杀在萌芽状态。垄断企业容易变得肥胖和懒惰。

那么该怎么办呢?传统的处理自然垄断的方法不是国有化就是管制。但是,这些方法 可能并不适合,因为与过去所有的自然垄断不同,互联网覆盖了全球。

举例来说,如果 Google 的网络索引由联邦政府拥有,他们可能会试图将其用作某种疯狂的帝国主义活动的一部分。比如,美国和欧盟同意一项国际条约,该条约要求 Google 支付象征性费用许可其索引内容,或许更为明智。另一种方法是,各国只需建立自己的公共互联网索引,供所有人免费使用。

但是,在有人提出解决方案之前,我们必须仔细研究一下这个问题。幸好,众议院一直在关注这一问题,甚至特朗普的司法部也提出诉讼,指控 Google 违反反垄断法。那只是国家努力的开始,需要建立一个人人平等的互联网。

 作者介绍:

Ryan Cooper,《周刊报道》(The Week)的全国记者。他在《华盛顿月刊》(Washington Monthly)、《新共和》(The New Republic)和《华盛顿邮报》(Washington Post)发表文章。

原文链接:

https://theweek.com/articles/955074/bust-googles-destructive-search-monopoly

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/485274.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

计算机网络——时延、时延带宽积、往返时间、利用率

计算机网络——时延、时延带宽积、往返时间、利用率 推荐课程:https://www.bilibili.com/video/BV19E411D78Q/?p4 1.时延 时延(delay或latency)是指数据(报文、分组、比特)从网络(或链路)的…

一文读懂虚拟现实产业最新发展趋势

来源: 中国电子报作者:赛迪智库虚拟现实产业形势分析课题组2020年以来,5G商用化进程的加速和新冠肺炎疫情背景下“非接触式”经济的新需求为虚拟现实产业发展带来了新的机遇。虚拟现实、增强现实技术在支撑服务疫情防控、加快企业复工复产、强…

log4net日志文件的应用

日志作为快速定位程序问题的主要手段,日志几乎是所有程序都必须拥有的一部分,下面我们就看下怎么使用log4net.dll文件: 1.下载log4net.dll文件 2.创建自己的项目 3.在自己项目下的引用log4net.dll文件 4.在app.config配置文件里添加配置信息&…

CSMA/CD协议分析笔记

CSMA/CD协议分析笔记 CSMA/CD(carrier sense multiple access with collision detection) 文章目录CSMA/CD协议分析笔记前言一、解读CS MA / CDCS——“载波监听”MA——“多点接入”CD——“碰撞(冲突)检测”二、传播时延对载波监听的影响为什么先听后发还是会产生冲突&#…

【剑指offer】面试题52:两个链表的第一个公共节点(java)

输入两个链表,找出它们的第一个公共节点。 如下面的两个链表: 在节点 c1 开始相交。 示例 1: 输入:intersectVal 8, listA [4,1,8,4,5], listB [5,0,1,8,4,5], skipA 2, skipB 3 输出:Reference of the node wit…

城市大脑全球标准研究1:城市大脑产生的时代背景是什么?

来源:城市大脑全球标准研究组20世纪10年代以来,IT科技领域出现了很多“大脑”“神经系统”概念,如互联网大脑、谷歌大脑、百度大脑、360安全大脑、华为城市神经系统等等,城市大脑是其中一个。这是一个有趣的现象,为什么…

李书福:对未来世界及汽车发展的六个洞见(附万字内部讲话全文)

来源:东西智库2月20日,一直被外界誉为缔造汽车行业传奇的吉利控股集团董事长李书福以“守正出奇 实事求是”为主题在集团内部进行了分享交流,在这场万字内部分享中,李书福从国内国际双循环之机遇和挑战,企业治理能力、…

JSP的“三指六动九内”

JavaWeb——JSP的“三指六动九内” JSP的基本使用 1. JSP模板元素 网页的静态内容。如html标签 JSP脚本 2. JSP的脚本 2.1、小脚本<% Java代码%> 2.2、表达式<% 11%>&#xff0c;等价于out.print(11) 2.3、声明<%! 声明变量和方法%> 3. JSP注释 JSP注释…

基于IPP-FFT的线性调频Z(Chirp-Z,CZT)的C++类库封装并导出为dll(固定接口支持更新)

上一篇分析了三种不同导出C++类方法的优缺点,同时也讲了如何基于IPP库将FFT函数封装为C++类库,并导出为支持更新的dll库供他人调用。 在此基础上,结合前面的CZT的原理及代码实现,可以很容易将CZT变换也封装为C++类库并导出为dll,关于CZT的原理和实现,如有问题请参考: …

梦境交互:做个现代灵媒,考虑一下?

来源&#xff1a;脑极体睡眠几乎占据人生的三分之一时间&#xff0c;做梦又是睡眠中必不可少的生理活动。很多人常常把“无梦之眠”看作是一个人精神状态好的标志&#xff0c;但事实上做梦常常发生&#xff0c;只是很多人在醒来后完全忘记自己做过梦而已。研究表明&#xff0c;…

使用浏览器获取网页模板(HTML+CSS)

使用浏览器获取网页模板(HTMLCSS) 一、获取网页的源代码 进入网页&#xff0c;使用快捷键CtrlU查看网页源代码&#xff0c;也可以单击鼠标右键选择查看网页源代码获取。 网页源代码&#xff1a; 将网页源代码CtrlA全选&#xff0c;CtrlC复制 在网页编辑器中新建一个HTML文…

基于MATLAB的Sobel边缘检测算法实现

图像边缘就是图像灰度值突变的地方&#xff0c;也就是图像在该部分的像素值变化速度非常之快&#xff0c;就比如在坐标轴上一条曲线有刚开始的平滑突然来个大转弯&#xff0c;在变化出的导数非常大。 Sobel算子主要用作边缘检测&#xff0c;它是一离散型差分算子&#xff0c;用…

一文读懂人工智能产业最新发展趋势

来源&#xff1a;世界物联网博览会作者&#xff1a;赛迪智库人工智能产业形势分析课题组当前&#xff0c;以新一代人工智能为代表的科技和产业革命正在孕育兴起。数字化、网络化、智能化的信息基础设施加速构建&#xff0c;以信息通信、生命、材料科学等交叉融合为特征的集成化…

半导体的过去、现在和未来

文章来源&#xff1a;中科院半导体所01半导体是信息化的基础上个世纪半导体大规模集成电路、半导体激光器、以及各种半导体器件的发明&#xff0c;对现代信息技术革命起了至关重要的作用&#xff0c;引发了一场新的全球性产业革命。信息化是当今世界经济和社会发展的大趋势&…

计算机网络——奈氏准则(奈奎斯特定理)

奈奎斯特定理——奈氏准则&#xff08;理想状态&#xff09; 奈氏准则&#xff1a;在理想低通&#xff08;没有噪声、带宽有限&#xff09;的信道中&#xff0c;为了避免码间串扰&#xff0c;极限码元传输率为2WBaud。其中W是理想低通信道的带宽&#xff0c;单位为Hz。若用V表…

计算机网络——CSMA/CD最小帧长相关题目

计算机网络——CSMA/CD最小帧长问题 本篇博客主要讲解有关CSMA/CD最小帧长求解相关例题&#xff0c;关于CSMA/CD详细详解请参考博客&#xff1a;CSMA/CD协议分析笔记 例题一、假定1km长的CSMA/CD网络的数据率为1Gbit/s。设信号在网络上的传输速率为200000km/s。求能够使用此协…

AI式剥削:数据标注人员日薪低至51块钱

来源&#xff1a;AI前线编译&#xff1a;核子可乐、钰莹最新论文指出&#xff0c;AI 行业正在残酷压榨刚刚兴起的全球零工经济体系。现代人工智能依赖各种算法处理规模达数百万的示例、图像或文本素材。但在此之前&#xff0c;首先需要由工作人员在图片数据集中手动标记出对象&…

SpringCloud03 Ribbon知识点、 Feign知识点、利用RestTemplate+Ribbon调用远程服务提供的资源、利用feign调用远程服务提供的资源、熔断...

1 远程服务资源的调用 1.1 古老的套路 在微服务出现之前&#xff0c;所有的远程服务资源必须通过RestTemplate或者HttpClient进行&#xff1b;但是这两者仅仅实现了远程服务资源的调用&#xff0c;并未提供负载均衡实现&#xff0c;所以程序员必须自己实现负载均衡功能&#xf…

一个没有意义的宇宙我们很难想象

© Pixabay来源&#xff1a;利维坦利维坦按&#xff1a;按照人择理论&#xff0c;“被观测的宇宙环境&#xff0c;必须允许观测者的存在”&#xff0c;我们似乎有理由相信&#xff0c;宇宙之存在有赖于观测者&#xff0c;不过&#xff0c;这个观测者一定是我们人类吗&#…

SpringCloud(二) 服务注册与发现Eureka

1.eureka是干什么的&#xff1f; 上篇说了&#xff0c;微服务之间需要互相之间通信&#xff0c;那么通信就需要各种网络信息&#xff0c;我们可以通过使用硬编码的方式来进行通信&#xff0c;但是这种方式显然不合适&#xff0c;不可能说一个微服务的地址发生变动&#xff0c;那…