搜索引擎现状及发展趋势
【摘要】
随着最近10年中国互联网的快速发展菜互联网已经彻底改变了人们的生活方式,而在互联网的发展过程中。搜索引擎发挥了巨大的推动作用。本文对搜索引擎的发展历史采用的技术,发展现状出现的问题以及未来发展方向进行了综述让读者对搜索引擎有个宏观的了解。
【关键词】 搜索引擎 发展趋势 发展现状
【Abstract】
With the rapid development of China’s Internet in the last 10 years, the Internet has completely changed people’s way of life, and in the development of the Internet. Search engines have played a huge role in promoting. This paper reviews the technology used in the development history of search engines, the problems arising from the development status quo and the future development direction so that readers have a macro understanding of search engines.
【Keyword】 Search Engine Trend of Development Development Status
一.搜索引擎概述
搜索引擎指自动从因特网搜集信息,经过一定整理以后,提供给用户进行查询的系统。因特网上的信息浩瀚万千,而且毫无秩序,所有的信息像汪洋上的一个个小岛,网页链接是这些小岛之间纵横交错的桥梁,而搜索引擎,则为用户绘制一幅一目了然的信息地图,供用户随时查阅。
搜索引擎的工作原理以最简单的语言描述,即是:
- 搜集信息:首先通过一个称为网络蜘蛛的机器人程序来追踪互联网上每一个网页的超链接,由于互联网上每一个网页都不是单独存在的(必存在到其它网页的链接),然后这个机器人程序便由原始网页链接到其它网页,一链十,十链百,至此,网络蜘蛛便爬满了绝大多数网页。
- 整理信息:搜索引擎整理信息的过程称为“创建索引”。搜索引擎不仅要保存搜集起来的信息,还要将它们按照一定的规则进行编排。这样,搜索引擎根本不用重新翻查它所有保存的信息而迅速找到所要的资料。
- 接受查询:用户向搜索引擎发出查询,搜索引擎接受查询并向用户返回资料。搜索引擎每时每刻都要接到来自大量用户的几乎是同时发出的查询,它按照每个用户的要求检查自己的索引,在极短时间内找到用户需要的资料,并返回给用户。
二 搜索引擎的背景及意义
1990年以前,没有任何人能搜索互联网。1990年诞生的Archie是一个可以用文件名自动索引互联网匿名FTP网站文件的程序,它实现了搜索,但还不是真正的搜索引擎。现代意义上的搜索引擎出现于1994年7月,当时Michael Mauldin将JohnLeavitt的蜘蛛程序接入到其索引程序中,创建了大家现在熟知的Lycosa。1995年末,Altavista永远改变了搜索引擎的定义,AItavista是第一个支持自然语言搜索的搜索引擎,也是第一个实现高级搜索语法的搜索引擎。1998年,Google在Pagerank、动态摘要、网页快照、DailyRefresh、多文档格式支持、地图股票词典寻人等集成搜索、多语言支持、用户界面等功能上的革新,象Altavista一样,再一次永远改变了搜索引擎的定义。
现阶段,出现Ask Jeeves,Baidu.com,Goto.com,MySimon,Dito 等内容类别不同的搜索引擎。从出现第一个搜索引擎至今,搜索引擎技术已获得了飞速的发展,现在的搜索引擎功能越来越强大,提供的服务也越来越全面,它们的目标不仅仅是提供单纯的查询功能,而是把自己发展成为用户首选的Internet入口站点。
三 搜索引擎的技术简介
3.1搜索引擎的分类
搜索引擎按其工作方式主要可分为三种,分别是全义搜索引擎( FullText Search Engine )目录索引类搜索引擎( SearchIndex/Directory )和元搜索引擎( Meta Search)
3.1.1.全文搜索引擎
全文搜索引擎是名副其实的搜索引擎,国外具代表性的有Google 、FastAITheWeb、AltaVista. Inktomi. Teoma、WiseNut等国内著名的有百度( Baidu )它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此他们是真正的搜索引擎。从搜索结果来源的角度,全文搜索引擎又可细分为两种,一种是拥有自己的检( Indexer ),俗称“蜘蛛"( Spider )程序或“机器人Robot)程序,并自建网页数据库,搜索结果直接从自身的数据库中调用,如上面提到的7家引擎;另一种则是租用租用其它引擎的数据库,并按自定的格式排列搜索结果,如Lycos引擎。
3.1.2.目录索引
目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已。
用户完全可以不用进行关键词( Keywords )查询,仅靠 分类目录也可找到需要的信息。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo。其他著名的还有Open Directory Project ( DMOZ ) LookSmart、 About 等。国内的搜狐、新浪、网易搜索也都属于这一类。
3.1.3.元搜索引擎
元搜索引擎在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索结果排列方面,有的直接按来源引擎排列搜索结果,如Dogpile,有的则按自定的规则将结果重新排列组合,如Vivisimo。
除上述三大类引擎外↓还有以下几种形式:
1、集合式搜索引擎s如HolBot在2002年底推出的引擎。该引擎类似META搜索引擎;但区别在于不是同时调用多个引擎进行搜索,而是由用户从提供的4个引擎当中选择 ;因此叫它”集合式”搜索引擎更确切些。
2、 门户搜索引擎:如AOL Search. MSNSearch等虽然提供搜索服务,但自身即没有分类目录也没有网页数据库,其搜索结果完全来自其他引擎。
3、免费链接列表( Free For All-Links简称FFA):这类网站一般只简单地滚动排列链接条目,少部分有简单的分类目录,不过规模比起Yahoo等目录索引来要小得多。
3.2搜索引擎的原理
3.2.1、抓取网页
每个独立的搜索引擎都有自己的网页抓取程序( spider。Spider 顺着网页中的超链接,连续地抓取网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝太多数的网页。
3.2.2、处理网页
搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最全面四重要的就是提取关键词,建立索引文件。其他还包括去除重复网页、分析超链接、计应用软算网页的重要度。
3.2.3、提供检索服务
用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。
3.3中文搜索引擎的关键技术—中文分词
3.3.3什么是中文分词?
分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂得多、困难得多。
3.3.2中文分词的作用
汉语自动分词到底对搜索引擎有多大影响2对于搜索引擎来说最重要的并不是找到所有结果,最重要的是把最相关的结果排在最前面,这也称为相关度排序。中文分词的准确与否常常直接影响到对搜索结果的相关度排序。分词准确性对搜索引擎来说十分重要,但如果分词速度太慢即使准确性再高,对于搜索引擎来说也是不可用的,因为搜索引擎需要处理数以亿计的网页如果分词耗用的时间过长会严重影响搜索引擎内容更新的速度。因此对搜索引擎来说分词的准确性和速度都需要达到很高的要求。
3.3.3 分词算法
3.3.3.1基于字符串匹配的分词方法
这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词方法如下:
1)正向最大匹配法(由左到右的方向);
2)逆向最大匹配法(由右到左的方向);
3)最少切分(使每一句中切出的词数最小)。
还可以将上述各种方法相互组合,例如,可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点,正向最小匹配和逆向最小匹配一般很少使用。一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245。但这种精度还远远不能满足实际的需要。实际使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确率。
一种方法是改进扫描方式,称为特征扫描或标志切分,优先在待分析字符串中识别和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进机械分词,从而减少匹配的错误率。另一种方法是将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而极大地提高切分的准确率。
3.3.3.2 基于理解的分词方法
这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。
3.3.3.3 基于统计的分词方法
从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。
这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性,会经常抽出一些共现频度高、但并不是词的常用字组,例如“这一”、“之一”、“有的”、“我的”、“许多的”等,并且对常用词的识别精度差,时空开销大。实际应用的统计分词系统都要使用一部基本的分词词典(常用词词典)进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。
到底哪种分词算法的准确度更高,目前并无定论。对于任何一个成熟的分词系统来说,不可能单独依靠某一种算法来实现,都需要综合不同的算法。个人了解,海量科技的分词算法就采用“复方分词法”,所谓复方,相当于用中药中的复方概念,即用不同的药才综合起来去医治疾病,同样,对于中文词的识别,需要多种算法来处理不同的问题。
四 当前搜索引擎的发展状况
4.1搜索引擎的作用
搜索引擎是网站建设中针对用户使用网站的便利性所提供的必要功能,同时也是研究网站用户行为的一个有效工具。新竞争力认为,高效的站内检索可以让用户快速准确地找到目标信息,从而更有效地促进产品/服务的销售,而且通过对网站访问者搜索行为的深度分析,对于进一步制定更为有效的网络营销策略具有重要价值。因此,对于内容丰富的大型信息类网站和产品线丰富的在线销售型网站来说,提供一般性的全文检索是远远不够的,很有必要开发能够实现个性化需求的高级搜索功能,这也是体现网站的网络营销功能的重要方面。
当今社会,没有人不用搜索引擎,只要有手机有电脑,我们一遇到自己没遇到过的问题或不了解的事务首先想到的就是搜索引擎。就连有时候我们想问朋友个问题,有些朋友可能会说自己上白队去查嘛。
搜索引擎发展到今天,基础架构和算法在技术上都已经基本成型和成熟。如今的一些改进和变化基于在多元化的信息整合,以及产品形态的改进上。 未来会往什么方向发展,或者有什么革命的变化,都不能确定。
4.2搜索引擎在发展过程中遇到的问题
搜索引擎在发展过程中,不可避免会出现大大小小的问题, 主要体现在以下4点:
4.2.1对于虚假广告信息审查和监管不力
具体体现在数码、IT、汽车、通讯类较为成熟的产品搜索资讯结果可信度较高。烟草以及屡被央视曝光的医疗服务类搜索资讯可信度位列最后。
4.2.2人工干预搜索结果
例如百度竞价排名政策,遭到过很多企业的质疑。也出现过多起突然之间搜索不到某一网站的任何信息的事情。
4.2.3 屏蔽相关企业的负面新闻
例如2008年传百度屏蔽三鹿集团的负面消息,但是百度很快做出回应否认。这件事仍然反应了这个问题的严重性。
4.2.4 侵犯相关产品的版权
版权问题直是搜索引擎遇到的大问题。搜索引擎搜索出来的内容有没有获得使用权呢?可惜的是大部分搜索结果都没有获得相关版权,例如百度MP3搜索,Google图片搜索和百度图片搜索,都曾经因为涉嫌侵权被多次起诉。
这4个问题是经过调查得出的网民认为搜索引擎目前最大的问题,垄断问题也不容忽视由于掌握搜索引擎技术的公司并不多,因此很容易形成垄断的局面。对于搜索引擎行业现状,虚假广告的审查和监管不力是网民反映最突出的问题,相应对完善审查
而需要的管理措施主要有以下6点:
1、完善审查程序,加大审查力度
2、完善相关法律法规
3、设立专门的政府监管部门
4、加大惩罚力度
5、加强媒体监督
6、依靠互联网行业自律
五 搜索引擎的发展趋势
5.1 智能搜索技术在应用于搜索引擎的智能化
智能搜索引擎可以通过自然语言与用户交互,最大限度地了解用户的需求,它能用户提供了一个真正智能化的,个性化的信息过滤和推送服务。智能检索一是表现在搜索引擎技术的智能化,研究重点放在自然语言处理技术和人工智能技术的研究上;另一表现是体现在搜索引擎面向检索者的智能化,它 致力于通过分析检索者的检索和浏览行为来学习检索者的需求, 利用搜索引擎现有的服务有选择地为检索者提供个性化的服务。通过这两方面的结合来提高搜索引擎的检索效果。在国外,已开始了将自然语言引入信息检索的实践探索,而国内则刚刚引入其理念,正处 于理论探讨的初 期,中文搜索引擎需要在这方向进行尝试。
5.2 对用户的友好性将不断提高
首先对用户检索界面进行改进。未来的检索界面要尽可能实现检索的可视化和图形化。将现在不为用户所看到的数据库内在的语义表述转化成可见的图形和图像;同时在检索结果处理上也需改进,能提供一些先进的方式来显示检索的结果,如提供按站点的排序的显示方式,按分类、主题、关键词自动把结果列成不同的文件夹的方式等等,这些在国外的某些搜索引擎中已有尝试。
5.3 多语种检索和翻译技术将有较大的突破
在多语种检索和翻译反面,Google已经推出了多语言版本,并且推出了它们之间的翻译服务,即Google翻译。其翻译的准确性是目前免费翻译工具中非常杰出的。未来的搜索引擎将在多语种检索和翻译技术有较大的突破。
5.4、搜索引擎的个性化
提高搜索精度的另一个途径是提供个性化的搜索,也就是将搜索建立在个性化的搜索环境之下,其核心是跟踪用户的搜索行为,通过对用户的不断了解、分析,积累用户的搜索个性化数据来提高用户的搜索效率。中搜,雅虎,Google等都在加紧开发个性化搜索引擎技术。如Google在搜索时对个人偏好予以重视,用全新的搜索理念,让搜索无处不在,用户点击次数多的搜索结果将在下次搜索靠前,用户也可以直接将某条或者多条搜索结果靠前排名。这样基于搜索和用户数据库的应用模式,使得搜索的多样化,个性化成为可能,这也是搜索引擎今后发展的趋势之一。
5.5、多媒体智能搜索引擎
随着Internet的强势发展,网上庞大的数字化星系和人们获取所需信息能力之间的矛盾日益突出。人们对于娱乐方面的搜索要求日益提高。在网络上看电影,听歌已经成为一种习惯。现在已经有多种此类的搜索引擎,百度和Google都推出了视频、音乐和图片搜索服务。而未来的发展应该是提供一个视频片段、音频片段或者一张图片的一部分,搜索引擎可以在王山找到相应的资源。这也是搜索引擎新的发展方向。
[总结]
综上所述,搜索引擎正处在高速发展阶段,是人们不可缺少的一部分,已经融入了人们的生活。但是目前仍存在多个没有解决的问题,相信在以后的发展中,搜索引擎技术会越来越成熟,为人们的工作生活带来更大的便利。
[参考文献]
[1]龙佳.论搜索引擎的特点与发展态势[J].电脑知识与技术,2019,15(01):200-201
[2]赵鹏.搜索引擎对信息传播的影响及其法律规制[J].比较法研究,2018(04):188-200.
[3]李岳梦.搜索引擎浅谈[J].电信网技术,2018(04):76-81.
[4]史昊天. 网络搜索引擎搜索策略及算法研究[D].天津工业大学,2018.
[5]李霄. 我国搜索引擎产业创新中的科技伦理问题研究[D].武汉大学,2017.
[6]v_JULY_vCSDN https://blog.csdn.net/v_july_v/article/details/6827391
[7]田蒂. 基于用户检索意图的元搜索引擎研究[D].吉林大学,2016.
[8]吴昊,秦丽.搜索引擎的发展历程及发展趋势[J].电子商务,2016(06):53+59.
[9]张才琼.现有搜索引擎使用缺陷与未来发展趋势分析[J].内蒙古科技与经济,2016(14):65-67.
[10]刘明飞.下一代搜索引擎发展趋势探析[J].数字化用户,2016,19(07):7.
[11] Sherry Koshman Web searching on the Vivisimo search engine 2016,12,2
[12] Weiyi Meng Wiley Encyclopedia of Computer Science and Engineering 2017,9,2
[13] Different Types of Search Engines 2010,8,23
[14] Kai Gao Presenting implicit relevance feedback in educational search engine2016,11,23
[15] Methods for measuring search engine performance over time 2017,3,23