很多有具有参考价值的资料,比如学生写论文报告,老师做课件,找工作准备简历都需要参考其他人的成果。在互联网上,这类资料一般不是普通的html网页,而是以Word、ppt(s)、Excel、pdf等格式存在的。虽然这些文件不象Html文件那样多,但由于它通常会包含一些别处没有的数据和资料,因而显得特别重要。对互联网上这类资源的挖掘和利用,既是搜索引擎的必备功能,也是网民主要的搜索需求之一。例如,北大的天网搜索就将文件搜索作为与网页搜索并列的另一功能;百度和搜狗,就为它们的文档搜索专门建立了一个查询网页,百度文档搜索和搜狗特色功能——文档查询;Google和雅虎的高级搜索中也可以限定文档的类型,并支持网页搜索中的语法查询。
查询方式
百度提供3种方式来搜索文档,分别是在网页搜索中使用高级语法——filetype:文档格式 关键词(或关键词 filetype:文档格式),在高级搜索中限定搜索网页格式和进入百度文档搜索中搜索。Google除了没有提供专门的文档搜索页面之外,另外两种方式与百度相同。
支持的文档类型
百度主要支持doc、ppt、xls、pdf、rtf等5种文档格式的查询,而Google支持的文档格式则有doc、ppt、xls、pdf、ps、rtf、xml、rss、txt、wiki、dwf、swf等,可见Google在支持文档类型上要胜于百度。
检全率
也就是查询结果数量,以查询“电子商务”相关的ppt课件为例,在百度上找到相关网页约2,760篇,而在Google上约有15,300项符合filetype:ppt 电子商务的查询结果,Google的结果数量大概是百度的7倍,可见在检全率上Google也要胜于百度。特别的,如果是查找英文文档,比如查找“search engine”相关的pdf文献,Google返回382,000项结果,而百度中只有3,820篇,巧得很,刚好是100倍。
检准率
也就是查询结果与关键字的相关性与匹配度,同样以搜索“电子商务”相关的ppt课件为例,下面两张图分别是百度和Google搜索结果的第一页:
百度搜索“电子商务”ppt文档第一页结果
Google搜索“电子商务”ppt文档第一页结果
从以上结果页面可看出,从搜索结果的相关性上来看,百度文档搜索要优于Google文档搜索,百度对文档标题的提取能力要强于Google。在Google中搜索出来的文档,似乎多数是文件名,而不是文章中的标题。
综上所述,百度文档搜索与Google文档搜索各有千秋,在中文文档的搜索上,百度的相关性更好,但是返回数量略显不够;Google虽没有提供简单、人性化的文档搜索页面,但支持的文档类型和返回结果数量十分丰富,并且Google在英文文献的查找上是具有先天的优势的。
作者/出处:一个叫搜索引擎的家伙
本文地址:http://hi.baidu.com/ccnuzxy/blog/item/adf15b8936a7d3b70e244453.html