Elasticsearch:什么是搜索引擎?

搜索引擎定义

搜索引擎是一种软件程序或系统,旨在帮助用户查找存储在互联网或特定数据库中的信息。 搜索引擎的工作原理是对各种来源的内容进行索引和编目,然后根据用户的搜索查询向用户提供相关结果列表。

搜索引擎对于希望快速有效地查找特定信息的用户来说是有用的工具。 它们的范围、功能和索引的内容类型各不相同。 这种多功能性可以满足不同环境下的特定用户需求。 搜索引擎可以是巨大的互联网搜索引擎,旨在对网络上的所有内容进行编目,也可以是旨在在组织内部使用以使内部信息发现更容易的企业搜索引擎。 它们甚至包括为本地网络上的文件建立索引的桌面搜索引擎。

搜索引擎简史

搜索引擎的概念早于互联网出现数十年。 1945 年,万尼瓦尔·布什 (Vannevar Bush) 在《大西洋月刊》发表的著名文章中,科学研究与发展办公室主任提议美国应该开展 “memex” 项目。 这个拟议的自动个人归档系统将 “机械化,以便可以以超快的速度和灵活性进行咨询”。

20 世纪 50 年代,第一个自动化信息检索系统问世。 20 世纪 50 年代末,杰拉德·索尔顿 (Gerard Salton) 等研究人员开始为文本自动信息检索系统奠定基础。 Salton 在 20 世纪 60 年代初开发了 SMART(文本机械分析和检索系统)信息检索系统。 这一里程碑使用数学和统计方法来分析和检索相关文本信息。 它还引入了相关性排名的概念。

在整个 20 世纪 60 年代和 1970 年代,各种信息检索系统不断发展,融入了布尔搜索和向量空间模型(一种将文本等对象表示为向量的数学模型)等新技术。 20 世纪 80 年代标志着自然语言处理技术融入信息检索系统,从而可以对用户查询和文档内容进行更复杂的分析。 1996 年,随着第一个自动化网络搜索引擎 WebCrawler 的首次亮相,出现了一个重大转折点。 Google 于 1998 年进入,以其 PageRank 算法彻底改变了互联网搜索,显着增强了搜索相关性。

20 世纪 90 年代末和 2000 年代初见证了搜索引擎的多元化。 企业搜索引擎的出现是为了应对日益数字化的业务数据。 2010 年代,开源企业选项兴起,为企业构建自己的搜索功能提供了灵活性和可扩展性。 其他新的搜索引擎包括垂直搜索引擎(专注于特定主题)和社交媒体搜索。 如今,在人工智能的帮助下,搜索引擎将不断改进和多样化。

搜索引擎如何工作?

搜索引擎的工作原理是遵循一个多步骤过程,旨在找到与用户查询最相关的结果。 从企业搜索引擎到互联网搜索,大多数都遵循类似的过程。

对于基于互联网的搜索引擎,搜索引擎部署自动化机器人(称为网络爬虫或蜘蛛)来查找信息。 这些机器人首先访问一组已知的网页。 他们从中提取并跟踪其他页面的链接,创建互连网页的地图。 在企业搜索引擎中,使用不同的方法来探索组织内的内部数据库、文档和其他存储库,通常是 API 和专用连接器。

爬行完成后,就开始建立索引。 爬虫分析每个网页、内部文档或其他数据的内容,以提取相关信息、关键字和元数据。 然后将收集到的信息组织成索引。 索引是一种结构化数据库,可以快速有效地检索信息。 它通常包括有关网页或文档的内容和位置的详细信息。

接下来的步骤是查询提交和分析。 当用户输入搜索查询时,搜索引擎会处理该查询以了解用户的意图。 它通过识别关键字、短语和用户上下文来分解查询。 如今,许多搜索引擎使用自然语言处理(NLP)技术来更好地理解单词背后的含义。

然后,搜索引擎将用户的查询与索引内容进行匹配。 它识别包含相关关键字或短语的文档或网页。 从索引中检索相关结果。 搜索引擎根据其算法生成潜在匹配列表。

算法排名根据各种因素(例如相关性或来源的权威性)组织结果。 有些通过内容相关性来衡量,有些会考虑跳出率和历史参与度等指标,而另一些则衡量点击率,甚至根据用户参与度数据提供自动建议。 通常,搜索引擎使用专有算法和复杂的排名算法来辨别列出结果的顺序。 在企业搜索中,可以调整甚至策划分层结果列表以对某些结果进行优先级排序。

最后,搜索引擎在搜索引擎结果页面(SERP)上向用户呈现排名结果。 每个结果通常包括标题、描述和 URL 或其他信息位置。 用户可以单击搜索结果来访问网页或文档的完整内容。

搜索引擎不断地抓取、索引和完善其算法,为用户提供最相关和最新的信息。 他们还持续监控用户行为,包括点击率和页面停留时间。 这些数据有助于完善排名算法并随着时间的推移提高结果的相关性。

为什么搜索引擎很重要?

搜索引擎很重要,因为它们是通往互联网和各种数字平台上大量可用信息的门户。 在数据泛滥的世界中,搜索引擎充当导航工具,帮助用户快速找到他们正在寻找的任何信息。

无论是用于学术研究、企业业务查询,还是仅仅在线购物,搜索引擎都会通过索引和组织在线信息和内部数据以使其易于访问,从而简化搜索过程。

搜索引擎在不同的行业提供了不同的可能性。 例如,在电子商务领域,它们可以充当内容创作者和消费者之间的桥梁,培育数字生态系统。 对于学术界各个层面的研究人员和学生来说,搜索引擎是教育和发现的重要工具。 搜索引擎可以通过提供对法律信息和数据库的访问来支持法律发现。 同样,他们可以通过索引文件和聚合医学期刊的信息来为医疗保健专业人员提供支持。 在大多数行业中,搜索引擎支持并简化研究和发现过程,使其对我们的日常生活至关重要。

搜索引擎的类型

搜索引擎有多种形式,每种形式都是为了满足特定的需求和环境而设计的。 以下是一些不同类型的搜索引擎:

互联网搜索引擎:通过索引和检索互联网上的信息,互联网搜索引擎可以接受用户查询并生成相关网页、图像、视频等。 请注意,互联网搜索引擎与网络浏览器不同,网络浏览器是显示网页的软件应用程序。 网络浏览器用于访问搜索引擎。

企业搜索引擎:专为内部组织使用而设计,企业搜索引擎在公司的数据库、文档和内部网中索引和检索信息。

桌面搜索引擎:通过对用户个人计算机或本地网络上的文件、应用程序和文档进行索引,桌面搜索引擎为用户提供快速的本地搜索功能。

学术搜索引擎:学术搜索引擎专注于学术内容,包括研究论文、文章和学术出版物,满足研究人员和学生的需求。

社交媒体搜索引擎:社交媒体搜索引擎可以对社交媒体平台上的内容进行索引,这允许用户搜索与帖子和讨论相关的主题以及查找其他用户个人资料。

元搜索引擎:这些聚合来自多个搜索引擎的结果,为用户提供更广阔的视角,通常用于比较结果。

垂直搜索引擎和专业搜索引擎:这些术语有时可以互换使用。 然而,它们之间存在重要的区别。 主要区别在于覆盖范围。 专业搜索引擎通常关注范围较窄,专注于独特的内容类型,而垂直搜索引擎则涵盖特定行业或主题内更广泛的范围。

搜索引擎优化(SEO)

搜索引擎优化(SEO)主要与互联网搜索引擎相关。 SEO 策略旨在提高网站在搜索引擎结果页面 (SERP) 中针对特定关键字和查询的可见性和排名。

SEO 的原理也可以应用于其他类型的搜索引擎,具体取决于上下文。 例如,组织可以在其企业搜索引擎中采用 SEO 技术来优化其内部内容。 专业搜索引擎的开发人员可以修改 SEO 技术并将其应用于图像、视频或其他类型的内容。 即使进行了这些修改,SEO 的核心原则仍然保持一致。

在互联网搜索引擎的上下文中使用不同的 SEO 子类型:

  • 技术搜索引擎优化优化网站的技术方面,以增强其搜索引擎可见性和用户体验。 网站速度、移动设备友好性、网站架构和 HTTPS 安全性是技术 SEO 中的众多考虑因素之一。
  • 页面搜索引擎优化优化网站上的各个页面,以提高排名并吸引相关流量。 关键词优化、元标签、标题标签、URL 结构和页面内容都是页面 SEO 的因素。
  • 页外搜索引擎优化涉及在网站之外进行的活动,以提高其排名。 这可能涉及从其他信誉良好的网站获取相关反向链接、利用社交媒体平台以及其他外部促销(例如影响者外展)。

搜索引擎的新趋势

一些新趋势可能会塑造搜索引擎的未来。 以下是一些值得思考的问题:

  • 零点击搜索(用户从搜索结果页面获取所需信息,而不是单击链接)将更加流行。 生成式人工智能将增强这一点,生成式人工智能会从各种来源收集信息来回答用户的查询。
  • 搜索引擎也将越来越多地利用人工智能来实现个性化。 人工智能将在其结果中考虑用户的偏好和行为(以及任何其他相关背景,例如位置)。
  • 语音激活设备和自然语言处理的改进已经导致对语音搜索的依赖增加。 搜索引擎将不断发展以更好地理解和响应对话式查询。
  • 隐私问题将推动注重隐私的搜索引擎的发展。 用户可能会倾向于优先考虑数据保护并提供匿名搜索选项的搜索引擎。
  • 视觉搜索将继续前进。 除了当前可用的查询(例如向视觉搜索添加文本提示)之外,用户将能够使用文本、图像和视频(称为多模式搜索)创建复杂的查询。
  • 问答已经变得司空见惯,在搜索结果的顶部为用户查询提供快速、简洁的答案的特色片段。 优化问答内容是互联网搜索引擎上日益增长的 SEO 策略。

使用 Elastic 搜索

Elastic 是为你的企业构建个性化、可扩展的 AI 搜索体验的完美选择。 借助 Elastic,你将获得一流的文本、向量、混合和语义搜索、生成式 AI 集成以及对 NLP 转换器模型和第三方模型管理的支持。 详细了解为什么 Elastic 是当今构建 AI 搜索应用程序的行业标准。

根据 Db-engine 的统计数据,目前 Elasticsearch 在搜索引擎领域排名第一:

我们常见的网站及 app,比如 CSDN,抖音,滴滴,美团,携程,微博,github 等等里的搜索都是来自 Elasticsearch。

搜索引擎资源

  • Elasticsearch:免费开放的 Elastic Stack 的核心
  • 视频:Elasticsearch 入门
  • 深入了解新的 Elasticsearch 相关性引擎

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/690950.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

怎么清理mac系统缓存系统垃圾文件 ?怎么清理mac系统DNS缓存

很多使用苹果电脑的用户都喜欢在同时运行多个软件,不过这样会导致在运行一些大型软件的时候出现不必要的卡顿现象,这时候我们就可以去清理下内存,不过很多人可能并不知道正确的清内存方式,下面就和小编一起来看看吧。 mac系统是一…

读十堂极简人工智能课笔记07_模拟与情感

1. 数码式考察 1.1. 制作计算机动画或游戏 1.1.1. 想怎么制作都可以 1.2. 计算机模拟 1.2.1. 目标是建造一个虚拟的实验室,其行为与现实完全一致,只是某些变量由我们来控制 1.3. 对现实世界进行建模并不容易,需要非常谨慎地收集和使用数…

Vscode vim 插件使用Ctrl+C和V进行复制粘贴到剪切板

Vscode vim 插件使用CtrlC和V进行复制粘贴到剪切板 使用这一个插件的时候复制粘贴和其他软件互动的时候体验不好, 并且不可以用Ctrl c, Ctrl v很不爽 "vim.commandLineModeKeyBindings": [{"before" : ["Ctrl", "c"],"after&q…

httpd apache

虚拟主机 配置环境 [rootlocalhost ~]#cd /var/www/html/ [rootlocalhost html]#mkdir 123 [rootlocalhost html]#mkdir abc [rootlocalhost html]#ls 123 abc [rootlocalhost html]#cd 123/ [rootlocalhost 123]#echo 123 > index.html [rootlocalhost 123]#cd ../abc/ […

泰山派摄像头使用-opencv流程

1. 泰山派添加camera 连接摄像头连接到usb接口,查看dev设备: # 在终端中输入如下命令,可以查看到camera设备资源: ls /dev/video* 检查板卡上的camera设备资源示例 也可以使用v4l2命令查看 v4l2-ctl --list-devices v4l2-ctl --list-devices是一个命令…

CentOS上如何配置手动和定时任务自动进行时间同步

场景 Linux(Centos)上使用crontab实现定时任务(定时执行脚本): Linux(Centos)上使用crontab实现定时任务(定时执行脚本)_centos 定时任务-CSDN博客 Winserver上如何配置和开启NTP客户端进行时间同步: Winserver上如何配置和开启NTP客户端进行时间同步…

ADS-B Receiver Module TT-SC1 for UAV and Drones

目录 Introduction Applications Main features Technical parameters Basic technical information Electrical specification Recommended operation conditions General electrical parameters Introduction TT-SC1 is a high quality and low price OEM ADS-B…

使用【Python+Appium】实现自动化测试

一、环境准备 1.脚本语言:Python3.x IDE:安装Pycharm 2.安装Java JDK 、Android SDK 3.adb环境,path添加E:\Software\Android_SDK\platform-tools 4.安装Appium for windows,官网地址 Redirecting 点击下载按钮会到GitHub的…

java面试题之redis篇

1.redis 中的数据类型有哪些 随着 Redis 版本的更新,后面又支持了四种数据类型: BitMap(2.2 版新增)、HyperLogLog(2.8 版新增)、GEO(3.2 版新增)、Stream(5.0 版新增&am…

Java+SpringBoot:农业疾病防治新选择

✍✍计算机编程指导师 ⭐⭐个人介绍:自己非常喜欢研究技术问题!专业做Java、Python、微信小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。 ⛽⛽实战项目:有源码或者技术上的问题欢迎在评论区一起讨论交流! ⚡⚡ Java实战 |…

基于FPGA的I2C接口控制器(包含单字节和多字节读写)

1、概括 前文对IIC的时序做了详细的讲解,还有不懂的可以获取TI的IIC数据手册查看原理。通过手册需要知道的是IIC读、写数据都是以字节为单位,每次操作后接收方都需要进行应答。主机向从机写入数据后,从机接收数据,需要把总线拉低来…

Linux常用操作指令

Linux常用操作指令 ls 指令 语法:ls [选项][目录或文件] 功能:对于目录,该命令列出该目录下的所有子目录与文件。对于文件,将列出文件名以及其他信息。 常用选项: -a 列出目录下的所有文件,包括以 . 开头…

【LeetCode每日一题】单调栈 581. 最短无序连续子数组

581. 最短无序连续子数组 给你一个整数数组 nums ,你需要找出一个 连续子数组 ,如果对这个子数组进行升序排序,那么整个数组都会变为升序排序。 请你找出符合题意的 最短 子数组,并输出它的长度。 示例 1: 输入&am…

【lesson59】线程池问题解答和读者写者问题

文章目录 线程池问题解答什么是单例模式什么是设计模式单例模式的特点饿汉和懒汉模式的理解STL中的容器是否是线程安全的?智能指针是否是线程安全的?其他常见的各种锁 读者写者问题 线程池问题解答 什么是单例模式 单例模式是一种 “经典的, 常用的, 常考的” 设…

【软考】软件质量模型

目录 一、说明二、ISO/IEC 9126软件质量模型2.1 说明2.2 功能性2.3 可靠性2.4 易使用性2.5 效率2.6 可维护性2.7 可移植性 三、Mc Call软件质量模型 一、说明 1.软件质量是指反映软件系统或软件产品满足规定或隐含需求的能力的特征和特性全体。软件质量管理是指对软件开发过程进…

【Vuforia+Unity】01实现单张多张图片识别产生对应数字内容

1.官网注册 Home | Engine Developer Portal 2.下载插件SDK,导入Unity 3.官网创建数据库上传图片,官网处理成数据 下载好导入Unity! 下载好导入Unity! 下载好导入Unity! 下载好导入Unity! 4.在Unity设…

数据结构排序:插入排序、希尔排序、选择排序、冒泡排序、堆排序、快速排序

文章目录 插入排序希尔排序选择排序冒泡排序堆排序快速排序 插入排序 基本思想: 直接插入排序是一种简单的插入排序法,其基本思想是: 把待排序的值按其关键码值的大小逐个插入到一个已经排好序的有序序列中,直到所有的记录插入完…

MongoDB文档插入

文章目录 MongoDB文档插入对比增删改查文档插入 MongoDB写安全机制非确认式写入 MongoDB文档查询参数说明查询操作符比较查询操作符逻辑查询操作符元素查询操作符数组查询操作符 模糊查询区别:$regex操作符中的option选项 MongoDB游标介绍游标函数手动迭代游标示例游标介绍 Mon…

有事休假店铺无人看守怎么办?智能远程视频监控系统保卫店铺安全

在春节期间,很多自营店主也得到了久违的假期,虽然很多店主都是长期在店铺中看守,但遇到春节这样的日子,多数人还是选择回乡休假。面对店主休假或有事不能管理店铺时,传统的监控虽然可以做到单一的监控,却仍…

J-Flash J-Link解锁GD32单片机

目录 前言一、使用J-Flash工具解锁单片机1.打开J-Flash软件2.创建工程3.连接 J-Link4.解锁Flash 二、使用J-Link STM32 Unlock解锁GD321.打开J-Link STM32 Unlock工具2.命令行输入3.解锁成功4.验证 三、附录总结😀*授人鱼,更要授人以渔,希望猿一的本篇博…