百度文档搜索与Google文档搜索的简单比较

很多有具有参考价值的资料,比如学生写论文报告,老师做课件,找工作准备简历都需要参考其他人的成果。在互联网上,这类资料一般不是普通的html网页,而是以Word、ppt(s)、Excel、pdf等格式存在的。虽然这些文件不象Html文件那样多,但由于它通常会包含一些别处没有的数据和资料,因而显得特别重要。对互联网上这类资源的挖掘和利用,既是搜索引擎的必备功能,也是网民主要的搜索需求之一。例如,北大的天网搜索就将文件搜索作为与网页搜索并列的另一功能;百度和搜狗,就为它们的文档搜索专门建立了一个查询网页,百度文档搜索搜狗特色功能——文档查询;Google和雅虎的高级搜索中也可以限定文档的类型,并支持网页搜索中的语法查询。

查询方式

百度提供3种方式来搜索文档,分别是在网页搜索中使用高级语法——filetype:文档格式 关键词(或关键词 filetype:文档格式),在高级搜索中限定搜索网页格式和进入
百度文档搜索中搜索。Google除了没有提供专门的文档搜索页面之外,另外两种方式与百度相同。

支持的文档类型

百度主要支持doc、ppt、xls、pdf、rtf等5种文档格式的查询,而Google支持的文档格式则有doc、ppt、xls、pdf、ps、rtf、xml、rss、txt、wiki、dwf、swf等,可见Google在支持文档类型上要胜于百度。

检全率

也就是查询结果数量,以查询“电子商务”相关的ppt课件为例,在百度上找到相关网页约2,760篇,而在Google上约有15,300项符合filetype:ppt 电子商务的查询结果,Google的结果数量大概是百度的7倍,可见在检全率上Google也要胜于百度。特别的,如果是查找英文文档,比如查找“search engine”相关的pdf文献,Google返回382,000项结果,而百度中只有3,820篇,巧得很,刚好是100倍。

检准率

也就是查询结果与关键字的相关性与匹配度,同样以搜索“电子商务”相关的ppt课件为例,下面两张图分别是百度和Google搜索结果的第一页:

百度搜索“电子商务”ppt文档第一页结果

Google搜索“电子商务”ppt文档第一页结果

从以上结果页面可看出,从搜索结果的相关性上来看,百度文档搜索要优于Google文档搜索,百度对文档标题的提取能力要强于Google。在Google中搜索出来的文档,似乎多数是文件名,而不是文章中的标题。

综上所述,百度文档搜索与Google文档搜索各有千秋,在中文文档的搜索上,百度的相关性更好,但是返回数量略显不够;Google虽没有提供简单、人性化的文档搜索页面,但支持的文档类型和返回结果数量十分丰富,并且Google在英文文献的查找上是具有先天的优势的。

作者/出处:一个叫搜索引擎的家伙
本文地址:http://hi.baidu.com/ccnuzxy/blog/item/adf15b8936a7d3b70e244453.html

转载于:https://www.cnblogs.com/panliang188/archive/2010/04/27/1722358.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/381058.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

使用宝塔部署node项目_使用宝塔面板进行项目的自动部署WebHook

首先你要知道什么是WebHook,如果你真的不想知道那也没关系。总之就是在你push到git仓库时会从git仓库触发一个http请求。关于http的地址根据你不同的git仓库有不同的方式去配置。首先配置宝塔面板,你需要安装宝塔插件中的 WebHook随便起一个名字然后保存…

git命令——转

github和gitlab等等一系列的分布式代码托管服务器方便我们开发人员在小组内开发项目,说起分布式代码托管就给大家提一下另外一代码托管SVN,当然他不是分布式的,而是集中式的代码托管,有兴趣的可以查阅资料了解一下,在这里我将着重…

17joys网站后台功能设计-阶段1

开始没想把网站设计的很完善再开始写代码,主要也是想通过不断的编写小模块,最后再整合在一起,这样也好记录我每个时间段的经验心得,在设计17joys的网站后台功能时,看了很多CMS系统,最后还是决定参考我最喜欢…

vue复选框组件自定义对勾_vue+element:树级复选框组件使用

handleCheck(checkedKeys,checkedNodes,halfCheckedKeys,halfCheckedNodes){var len 0,num 0;var _alen 0;var a [];var b [];var copyArr [];for (var i 0;i < checkedNodes.checkedNodes.length;i){//记录子节点的索引if (checkedNodes.checkedNodes[i].children nul…

汇编指令——转

今天来扒一扒X86汇编指令&#xff08;IA-32指令&#xff09;&#xff0c;首先看看它的概念&#xff1a; IA-32&#xff08;Intel Architecture 32bit&#xff0c;英特尔32位体系架构&#xff09;[1] &#xff0c;属于X86体系结构的32位版本&#xff0c;即具有32位内存地址和32…

生成颜色代码的 Java程序

在网页 http://flash.9ria.com/thread-33919-1-1.html 找到如下代码。他可以指定 开始颜色&#xff0c; 结束颜色&#xff0c; 以及 步长&#xff0c;函数返回一个 java 数组&#xff0c;数组中包含有颜色代码。 选择 开始颜色&#xff0c; 结束颜色时可以参见下面的 颜色代码表…

flutter生成源代码_Flutter创建工程的主要代码详解

使用Android Studio创建的默认Flutter工程主要代码在lib文件夹下的main.dart文件中&#xff0c;本文主要对该文件进行一个讲解。main.dart文件可以认为是Flutter工程的入口文件&#xff0c;文件顶部import package:flutter/material.dart;(即引入了一个dart文件&#xff0c;该文…

Centos7 开启网卡配置IP并连接xshell——转

1、在VMware中安装Centos7系统[1] 2、查看虚拟机里的Centos7的IP[2] 1)查看IP 输入ip查询命名 ip addr 发现 ens33 没有 inet 这个属性&#xff0c;那么就没法通过IP地址连接虚拟机。 2&#xff09;接着来查看ens33网卡的配置&#xff1a; vi /etc/sysconfig/network-scripts…

用眼过渡

一、动1、多眨眼通常情况下&#xff0c;一般人每分钟眨眼少于5次会使眼睛干燥。一个人在电脑前工作时眨眼次数只及平时的三分之一&#xff0c;因而减少了眼内润滑剂 和酶的分泌。应该多眨眼&#xff0c;每隔一小时至少让眼睛休息一次。 2、晶体操 转眼&#xff1a;双手托腮&…

rda冗余分析步骤_群落分析的典范对应分析(CCA)概述

典范对应分析(CCA)与去趋势典范对应分析(DCCA)概述典范对应分析(canonical correspondence analysis&#xff0c;CCA)是单峰约束排序方法&#xff0c;是对应分析(CA)与多元回归的结合&#xff0c;其算法源自冗余分析(RDA)。同RDA&#xff0c;CCA涉及两个数据矩阵&#xff0c;响…

Linux 可执行文件 ELF结构 及程序加载运行

Linux下ELF文件类型分为以下几种&#xff1a; 1、可重定位文件&#xff0c;例如SimpleSection.o&#xff1b; 2、可执行文件&#xff0c;例如/bin/bash&#xff1b; 3、共享目标文件&#xff0c;例如/lib/libc.so。 在Linux 可重定位文件 ELF结构一文中&#xff0c;我们已经分析…

前途未必是光明的,道路却一定是曲折的

今天搜psm的文章&#xff0c;结果搜到了几位很厉害的人的blog&#xff0c;其中有一个还在写关于次时代的引擎&#xff0c;好像是在那啥 而另外两位都在07年就开始实现这个技术了。。。看到了真的就是那个感觉 井蛙观天尤不知 另外看到的就是工程实践真的是很难的过程&#…

如何输入一个整数逆序输出_如何匹配DSP输入输出信号

mosconi DSP可以通过DSP监察界面查看信号输入及输出的情况。对于主机是全频信号输出在 mosconi DSP的混合调校中进行的匹配&#xff0c;还有主机是主动分频信号输出在 mosconi DSP的混合调校中进行的匹配。若主机部分输出信号是反相(如视频案例)&#xff0c;又该如何匹配信号…

IDA——动态调试Linux上的ELF文件(整合他人博客)

先查看机器之间是否可以ping通 0x00&#xff1a;环境 待调试ELF文件 IDA 7.0 主机&#xff1a;Windows 虚拟机&#xff1a;Linux 达成效果&#xff1a;在Window上利用IDA远程动态调试linux里的ELF文件 0x01&#xff1a;Unbuntu里运行IDA的服务器组件 IDA附带以下组件&#x…

SQL SERVER最大用户连接数

使用 user connections 选项指定允许同时连接到 Microsoft SQL Server 的最大用户数。实际允许的用户连接数还取决于正使用的 SQL Server 版本以及应用程序和硬件的限制。SQL Server 最多允许同时 32,767 个用户连接。 因为 user conn…

Linux获得命令帮助

一、获得命令帮助 1.1、内部命令与外部命令 简单来说&#xff0c;在linux系统中有存储位置的命令为外部命令&#xff1b; 没有存储位置的为内部命令&#xff0c;可以理解为内部命令嵌入在linux的shell中&#xff0c;所以看不到。 type来判断到底为内部命令还是内部命令 [ro…

2019输入序列号闪退_正式告别60秒长语音 讯飞输入法新版评测:能动口我绝不动手...

一、前言&#xff1a;60秒长语音有希望消灭了从2010年&#xff0c;讯飞推出业界首个中文语音输入法&#xff0c;将语音输入带到大众面前直到今天&#xff0c;语音输入早就不再是当初功能机时代“语音王”的土味儿模样。如今&#xff0c;语音输入已经逐渐超过手写&#xff0c;成…

c#扩展方法奇思妙用性能篇一:扩展方法性能初测

最近写了几篇《c#扩展方法奇思妙用》的文章&#xff0c;一直只是讨论如何扩展、如何使用的问题&#xff0c;几乎没有涉及效率方面。而大家的回复好多都在问效率如何、性能怎样&#xff0c;也引起了我对效率的关注&#xff0c;今天将初步测试的结果发出来&#xff0c;大家一起探…

云服务器抢票咋用_[Mac] 阿里云服务器+分流抢票教程

一.前言临近过年, 抢春运的票成为了我们人生的头等大事, 我们都知道分流是最好用的抢票软件之一, 但是只支持windows, 又因为我工作的电脑是Mac所以不能安装, 是得想个办法才好, 最终决定了使用 阿里云服务器 分流 进行抢票, 是不是听起来很高级呢? 下面就跟着我们的上下文一…

Centos7忘记密码——转

应用场景 linux管理员忘记root密码&#xff0c;需要进行找回操作。 注意事项&#xff1a;本文基于centos7环境进行操作&#xff0c;由于centos的版本是有差异的&#xff0c;继续之前请确定好版本。 操作步骤 一、重启系统&#xff0c;在开机过程中&#xff0c;快速按下键盘上…