现代信息检索笔记(一)

目录

什么是信息检索

应用一:做搜索引擎

应用二:信息推荐系统

应用三:婚恋网站

信息检索的具体应用

从信息规模上分类

为什么要学习信息检索技术?

市场发展需求大

应用需求多:

课程情况

课程宗旨

国际著名研究机构和代表人

一些活跃的华裔学者

重要会议

国际会议:

国内会议:

ACM&SIGIR

重要期刊


什么是信息检索

应用一:做搜索引擎

前十个能否搜到准确的答案。

答案是否按相关性由高到低排序。

排除作弊行为(优化用户阅读观感),促进推广行为(赚钱)。

如何一边打广告,一边提高用户的阅读体验。

商家为用户买单。

根据关键词找语料。

应用二:信息推荐系统

买了同一商品的用户也买了XX产品。

区别:第一个被动,第二个主动。

所有检索的数据会被保留在后台中,根据不同的购买习惯推送不同的商品。

信息过滤:我猜你不喜欢XX,本质仍属于信息推荐。

应用三:婚恋网站

根据输入任务信息,找到最匹配的人。

共同点:给定需求,找到匹配信息

信息检索:给定用户需求返回满足该需求信息的一门学科。通常涉及信息的获取、存储、组织和访问。爬虫也属于该门学科的知识。

从大规模非结构化数据(通常是文本)的集合(通常 保存在计算机上)中找出满足用户信息需求的资料 (通常是文档)的过程。

“找对象”的学科,即定义并计算某种匹配“相 似度”的学科。

信息检索的具体应用

搜索

Query->document 符合1,不符合0。

找到一个相关度,根据相关度把符合的信息按相关度从高到低排名。

舆情分析、推荐、内容安全、挖掘、情报处理

从信息规模上分类

个人信息检索:桌面信息检索

企业信息检索:搜索引擎

为什么要学习信息检索技术?

市场发展需求大

用户需要信息检索技术:互联网的信息量太大、噪音太多, 寻找所需要的信息非常不容易

公司需要信息检索技术:搜索引擎改变了很多传统的生活 方式,Yahoo、Google、Baidu,还有一些公司如Microsoft、 Sina、Sohu、Tecent、Netease都加入到这个搜索技术的竞 争。不只是搜索引擎才需要信息检索技术,电子商务(如 亚马逊网站、阿里巴巴)、社交网(微博、Facebook、twitter、 校内网)、数字图书馆、大规模数据分析等都需要信息检 索技术

应用需求多:

移动搜索、产品搜索、专利搜索、广告推荐、消费行为分析、网络评论分析、SEO营销

课程情况

课程宗旨

信息检索的基本原理、模型和方法(含部分机器学 习、自然语言处理方法)

信息检索系统的基本实现方法

国际著名研究机构和代表人

美国康奈尔大学 Salton (1927-1995) § 现代信息检索的奠基人,倡导向量空间模型 § SMART的完成人 § 第一任Salton奖(1983年)得主,ACM Fellow

§ 英国剑桥大学 Sparck Jones (1935-2007) § 概率检索模型的提出者之一 § NLP和IR中的先辈 § 曾获ACL终身成就奖和1988年Salton奖

微软英国剑桥研究院、伦敦城市大学 Robertson § 概率检索模型的先驱和倡导者 § 开发了OKAPI检索系统 § 2000年Salton奖得主

 § 美国 UMass CIIR W. B. Croft,ACM Fellow § 基于统计语言建模IR模型的提出者和倡导者 § 和CMU共同开发了Lemur工具 § 2003年Salton奖得主

英国Glasgow大学 Rijsbergen, ACM Fellow § 信息检索逻辑推理学派的提出者和倡导者 § 现在试图用量子的方法解决IR问题 § 2006年Salton奖得主

 § 微软美国研究院 Susan Dumais § 隐性语义索引LSI的提出者 § 2009年Salton奖得主

美国CMU § 美国UIUC § 微软研究院 § IBM研究院 § Google研究院 § Yahoo!研究院

一些活跃的华裔学者

加拿大蒙特利尔大学聂建云教授 § 跨语言检索 § IR模型

 § 美国UIUC 翟成祥(Chengxiang Zhai博士) § IR模型、主题模型(Topic Model)

§ 美国CMU 杨颐明(Yiming Yang)教授 § 文本分类领域最著名的学者之一

台湾中研院 简立峰 § 号称“中文搜索”第一人 § 加入Google研究院

重要会议

国际会议:

 § SIGIR、ACL、WWW、SIGKDD、WSDM、ICML § CIKM、EMNLP、COLING § TREC、NTCIR评测会议 § ECIR、AIRS §

国内会议:

 § 全国信息检索学术会议(1年一届) § 全国计算语言学联合会议(2年一届) § 搜索引擎和WEB挖掘学术会议(1年一届,上半年)

ACM&SIGIR

ACM:美国计算机学会 § SIGIR:special interest group on information retrieval,特定兴趣组 § ACM SIGIR Conference:IR领域的最重要会议, 起始于1971年。

重要期刊

国际: § ACM Transactions on Information Systems (TOIS) § ACM Transactions on Asian Language Information Processing (TALIP) § Information Processing & Management (IP&M) § Information Retrieval

§ 国内 § 中文信息学报 § 情报学报

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/37983.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

互联网大厂核心知识总结PDF资料

我们要敢于追求卓越,也能承认自己平庸,不要低估3,5,10年沉淀的威力 hi 大家好,我是大师兄,大厂工作特点是需要多方面的知识和技能。这种学习和积累一般人需要一段的时间,不太可能一蹴而就&…

使用 FastAPI 实现聊天完成 API 详解

使用 FastAPI 实现聊天完成 API 详解 简介基础概念FastAPIPydanticPyTorch 代码详解1. 定义 API 端点2. 请求验证3. 生成参数字典4. 处理流式响应5. 工具调用处理6. 非流式响应处理7. 处理使用信息和工具调用8. 构建聊天消息9. 构建响应选择10. 更新使用信息11. 返回最终响应 总…

SQL Server触发器深度解析:数据完整性的守护者

标题:SQL Server触发器深度解析:数据完整性的守护者 摘要 在SQL Server中,触发器是一种特殊的存储过程,它在特定数据库事件发生时自动执行。触发器主要用于维护数据的完整性和实施复杂的业务规则。本文将详细介绍SQL Server中触…

ubuntu 添加PATH

在Ubuntu中,PATH是一个环境变量,用于指定系统查找可执行文件的目录列表。如果你想将新的目录添加到PATH中,可以按照以下步骤操作: 临时添加PATH 你可以在终端中使用export命令临时修改PATH环境变量。例如,如果你想将…

Python使用彩虹表来尝试对MD5哈希进行破解

MD5是一种散列算法,它是不可逆的,无法直接解密。它的主要作用是将输入数据进行散列,生成一个固定长度的唯一哈希值。 然而,可以使用预先计算好的MD5哈希值的彩虹表(Rainbow Table)来尝试对MD5进行破解。彩…

c++函数(一)习题讲解

1.【单选题】 void swap (int a,int b) { a a ^ b; b a ^ b; a a ^ b; } int a {120},b {130}; swap{a,b}; a? b? A 120,130 B 130,120 C130,0 解析:这道题中,函数体的内容是交换两个变量的值,采用的是位运算的…

Java中泛型的概念和使用场景

技术难点 Java中的泛型(Generics)是JDK 5.0引入的一项新特性,它允许在定义类、接口和方法时使用类型参数(type parameters)。泛型的主要技术难点在于类型擦除(type erasure)和类型推断&#xf…

Day48

Day48 手写Spring-MVC之前后置处理器与异常处理 前后置处理器 概念:从服务器获取的JSON数据可能是加密后的,因此服务端获取的时候需要进行解密(前置处理器)。 而从服务器传出的JSON数据可能需要加密,因此需要在处理返…

VMware虚拟机迁移:兼用性踩坑和复盘

文章目录 方法失败情况分析:参考文档 方法 虚拟机关机,整个文件夹压缩后拷贝到新机器中,开机启用即可 成功的情况: Mac (intel i5) -> Mac (intel i7)Mac (intel, MacOS - VMware Fusion) -> DELL (intel, Windows - VMw…

Zynq7000系列FPGA中的DMA控制器简介(二)

AXI互连上的DMA传输 所有DMA事务都使用AXI接口在PL中的片上存储器、DDR存储器和从外设之间传递数据。PL中的从设备通过DMAC的外部请求接口与DMAC通信,以控制数据流。这意味着从设备可以请求DMA交易,以便将数据从源地址传输到目标地址。 虽然DMAC在技术…

mysql5.7安装使用

mysql5.7安装包:百度网盘 提取码: 0000 一、 安装步骤 双击安装文件 选择我接受许可条款–Next 选择自定义安装,下一步 选择电脑对应的系统版本后(我的系统是64位),点击中间的右箭头,选择Next 选择安装路径–Next 执行…

.NET之C#编程:懒汉模式的终结,单例模式的正确打开方式

概述 在C#编程世界中,单例模式是一种常见的设计模式,用于确保一个类只有一个实例,并提供一个全局访问点。然而,传统的懒汉模式实现方式在多线程环境下存在安全隐患。本文将深入探讨单例模式的正确实现姿势,带你走出懒汉…

matlab可以把图像数据转换为小波分析吗

🏆本文收录于《CSDN问答解答》专栏,主要记录项目实战过程中的Bug之前因后果及提供真实有效的解决方案,希望能够助你一臂之力,帮你早日登顶实现财富自由🚀;同时,欢迎大家关注&&收藏&…

【后端面试题】【中间件】【NoSQL】ElasticSearch 节点角色、写入数据过程、Translog和索引与分片

中间件的常考方向: 中间件如何做到高可用和高性能的? 你在实践中怎么做的高可用和高性能的? Elasticsearch节点角色 Elasticsearch的节点可以分为很多种角色,并且一个节点可以扮演多种角色,下面列举几种主要的&…

【软件测试】白盒测试(知识点 + 习题 + 答案)

《 软件测试基础持续更新中》 最近大家总是催更……,我也是百忙之中给大家详细总结了白盒测试的重点内容! 知识点题型答案,让你用最短的时间,学到最高效的知识! 整理不易,求个三连 ₍ᐢ..ᐢ₎ ♡ 目录 一、…

Spring专题一:源码编译

下载源码 因为公司使用的是Spring5.2.x所以就下载了这个版本,github源码地址如下: GitHub - spring-projects/spring-framework at v5.2.6.RELEASE: 如果网络不稳定可以使用下载压缩版即可,网络稳定的话还是建议使用git clone …

JDBC中的元数据是什么?如何获取?

JDBC中的元数据(MetaData)是关于数据的数据,它描述了数据库的结构、表的结构、列的数据类型、存储过程、支持的SQL语法和数据库产品的版本等信息。元数据在JDBC中主要通过DatabaseMetaData和ResultSetMetaData两个接口来获取。 1. DatabaseM…

代理IP用什麼協議?

代理IP的運作主要依賴兩種協議:HTTP代理協議和SOCKS代理協議。 HTTP代理協議 HTTP代理協議是最常見的代理協議。它主要用於HTTP請求,即我們常說的網頁流覽。當你通過HTTP代理伺服器訪問網站時,你的設備會先向代理伺服器發送HTTP請求&#x…

【redis】redis RDB

1、概述 1.1定义 RDB (Redis Database) 是 Redis 的默认持久化机制,它能够在指定的时间间隔内将内存中的数据集快照写入磁盘。RDB 持久化产生的文件是一个经过压缩的二进制文件,通过该文件可以还原生成 RDB 文件时的数据库状态。 1.2特点 一次性全量备…

RStudio学习笔记(三):其他数据结构

1、矩阵 在R语言中&#xff0c;矩阵是二维的&#xff0c;包括行和列&#xff0c;其中分为数值型、字符型、逻辑型三种&#xff0c;在每个矩阵中的矩阵元素的类型必须一致&#xff0c;可以通过matrix函数创建矩阵。 m <- matrix(1:20, nrow 4, ncol 5) # 创建一个四行…