现代信息检索笔记(一)——课程简介

目录

什么是信息检索

应用一:做搜索引擎

应用二:信息推荐系统

应用三:婚恋网站

信息检索的具体应用

从信息规模上分类

为什么要学习信息检索技术?

市场发展需求大

应用需求多:

课程情况

课程宗旨

国际著名研究机构和代表人

一些活跃的华裔学者

重要会议

国际会议:

国内会议:

ACM&SIGIR

重要期刊


什么是信息检索

应用一:做搜索引擎

前十个能否搜到准确的答案。

答案是否按相关性由高到低排序。

排除作弊行为(优化用户阅读观感),促进推广行为(赚钱)。

如何一边打广告,一边提高用户的阅读体验。

商家为用户买单。

根据关键词找语料。

应用二:信息推荐系统

买了同一商品的用户也买了XX产品。

区别:第一个被动,第二个主动。

所有检索的数据会被保留在后台中,根据不同的购买习惯推送不同的商品。

信息过滤:我猜你不喜欢XX,本质仍属于信息推荐。

应用三:婚恋网站

根据输入任务信息,找到最匹配的人。

共同点:给定需求,找到匹配信息

信息检索:给定用户需求返回满足该需求信息的一门学科。通常涉及信息的获取、存储、组织和访问。爬虫也属于该门学科的知识。

从大规模非结构化数据(通常是文本)的集合(通常 保存在计算机上)中找出满足用户信息需求的资料 (通常是文档)的过程。

“找对象”的学科,即定义并计算某种匹配“相 似度”的学科。

信息检索的具体应用

搜索

Query->document 符合1,不符合0。

找到一个相关度,根据相关度把符合的信息按相关度从高到低排名。

舆情分析、推荐、内容安全、挖掘、情报处理

从信息规模上分类

个人信息检索:桌面信息检索

企业信息检索:搜索引擎

为什么要学习信息检索技术?

市场发展需求大

用户需要信息检索技术:互联网的信息量太大、噪音太多, 寻找所需要的信息非常不容易

公司需要信息检索技术:搜索引擎改变了很多传统的生活 方式,Yahoo、Google、Baidu,还有一些公司如Microsoft、 Sina、Sohu、Tecent、Netease都加入到这个搜索技术的竞 争。不只是搜索引擎才需要信息检索技术,电子商务(如 亚马逊网站、阿里巴巴)、社交网(微博、Facebook、twitter、 校内网)、数字图书馆、大规模数据分析等都需要信息检 索技术

应用需求多:

移动搜索、产品搜索、专利搜索、广告推荐、消费行为分析、网络评论分析、SEO营销

课程情况

课程宗旨

信息检索的基本原理、模型和方法(含部分机器学 习、自然语言处理方法)

信息检索系统的基本实现方法

国际著名研究机构和代表人

美国康奈尔大学 Salton (1927-1995) § 现代信息检索的奠基人,倡导向量空间模型 § SMART的完成人 § 第一任Salton奖(1983年)得主,ACM Fellow

§ 英国剑桥大学 Sparck Jones (1935-2007) § 概率检索模型的提出者之一 § NLP和IR中的先辈 § 曾获ACL终身成就奖和1988年Salton奖

微软英国剑桥研究院、伦敦城市大学 Robertson § 概率检索模型的先驱和倡导者 § 开发了OKAPI检索系统 § 2000年Salton奖得主

 § 美国 UMass CIIR W. B. Croft,ACM Fellow § 基于统计语言建模IR模型的提出者和倡导者 § 和CMU共同开发了Lemur工具 § 2003年Salton奖得主

英国Glasgow大学 Rijsbergen, ACM Fellow § 信息检索逻辑推理学派的提出者和倡导者 § 现在试图用量子的方法解决IR问题 § 2006年Salton奖得主

 § 微软美国研究院 Susan Dumais § 隐性语义索引LSI的提出者 § 2009年Salton奖得主

美国CMU § 美国UIUC § 微软研究院 § IBM研究院 § Google研究院 § Yahoo!研究院

一些活跃的华裔学者

加拿大蒙特利尔大学聂建云教授 § 跨语言检索 § IR模型

 § 美国UIUC 翟成祥(Chengxiang Zhai博士) § IR模型、主题模型(Topic Model)

§ 美国CMU 杨颐明(Yiming Yang)教授 § 文本分类领域最著名的学者之一

台湾中研院 简立峰 § 号称“中文搜索”第一人 § 加入Google研究院

重要会议

国际会议:

 § SIGIR、ACL、WWW、SIGKDD、WSDM、ICML § CIKM、EMNLP、COLING § TREC、NTCIR评测会议 § ECIR、AIRS §

国内会议:

 § 全国信息检索学术会议(1年一届) § 全国计算语言学联合会议(2年一届) § 搜索引擎和WEB挖掘学术会议(1年一届,上半年)

ACM&SIGIR

ACM:美国计算机学会 § SIGIR:special interest group on information retrieval,特定兴趣组 § ACM SIGIR Conference:IR领域的最重要会议, 起始于1971年。

重要期刊

国际: § ACM Transactions on Information Systems (TOIS) § ACM Transactions on Asian Language Information Processing (TALIP) § Information Processing & Management (IP&M) § Information Retrieval

§ 国内 § 中文信息学报 § 情报学报

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/39894.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

客户端渗透

1.一键可执行程序 2.给程序加壳 3.宏病毒感染文档 4.Android apk 利用 1.一键可执行程序 介绍:我们要进行客户端渗透,我们生成一个可执行程序,也是简单粗暴,MSF建立监听,把它发给受害者,只要受害者点击…

【面试系列】C 语言高频面试题

欢迎来到我的博客,很高兴能够在这里和您见面!欢迎订阅相关专栏: ⭐️ 全网最全IT互联网公司面试宝典:收集整理全网各大IT互联网公司技术、项目、HR面试真题. ⭐️ AIGC时代的创新与未来:详细讲解AIGC的概念、核心技术、…

VQ-VAE中如何解决梯度截断(不可导)问题?直通估计、(stop gradient,停止梯度)

(stop gradient,停止梯度)运算 它简称为sg 也就是说,前向传播时,𝑠𝑔里的值不变(sg1);反向传播时,𝑠𝑔按值为0求导(sg0),即此次计算无…

canvas画箭头线

箭头线 vueuni-appcanvas 画带箭头可拖动的线段 <template><div><canvas ref"canvas" class"canvas" width"600px" height"400px" mousedown"startDrawing" mousemove"draw" mouseup"stopD…

Centos手动安装PHP和配置mydqli模块

第一步&#xff1a;手动安装php和php-fpm sudo yum install php php-fpm 安装 sudo systemctl start php-fpm 启动 sudo systemctl enable php-fpm 开机启动 php -v php-fpm -v PHP 5.4.16 (cli) (built: Apr 1 2020 04:07:17) Copyright (c) 1997-2013 The PHP G…

【加密与解密】【09】GPG Client签名流程

什么是GPG客户端 GPG客户端是实现PGP加密协议的一套客户端程序&#xff0c;可用于加密或签名 下载GPG客户端 建议安装命令行工具&#xff0c;图形工具一般不具备完整功能 https://gnupg.org/download/index.html生成私钥 此时会要求你输入名称&#xff0c;邮箱&#xff0c…

Qt Q_ASSERT详解

Q_ASSERT详解 引言一、基本用法二、深入了解三、参考链接 引言 Q_ASSERT是 Qt 框架中的一个宏&#xff0c;用于在调试时检查某个条件是否为真。它是程序调试中的一个重要工具&#xff0c;有助于开发者在开发过程中及时发现并修复潜在的错误。 一、基本用法 只在使用 Qt 的 D…

干货:科技论文写作保姆级攻略

前言&#xff1a;Hello大家好&#xff0c;我是小哥谈。科技论文是报道自然科学研究或技术开发工作成果的论说文章。通常基于概念、判断、推理、证明或反驳等逻辑思维体系&#xff0c;使用实验调研或理论计算等研究手段&#xff0c;按照特定格式撰写完成。 科技论文可以粗略分为…

UiPath+Appium实现app自动化测试

一、环境准备工作 1.1 完成appium环境的搭建 参考&#xff1a;pythonappiumpytestallure模拟器(MuMu)自动化测试环境搭建_appium mumu模拟器-CSDN博客 1.2 完成uipath的安装 登录官网&#xff0c;完成注册与软件下载安装。 UiPath业务自动化平台&#xff1a;先进的RPA及自动…

vue组件深入介绍之插槽

了解插槽之前请先了解vue组件基础及注册 Vue2官网介绍 Vue3官网介绍 1、vue2插槽介绍 在2.6.0中&#xff0c;具名插槽和作用域插槽引入了一个新的统一语法&#xff08;v-slot指令&#xff09;。它将取代slot和slot-scope&#xff1b; Vue 实现了一套内容分发的 API&#xf…

AI 会淘汰程序员吗?

前言 前些日子看过一篇文章&#xff0c;说国外一位拥有 19 年编码经验、会 100% 手写代码的程序员被企业解雇了&#xff0c;因为他的竞争对手&#xff0c;一位仅有 4 年经验、却善于使用 Copilot、GPT-4 的后辈&#xff0c;生产力比他更高&#xff0c;成本比他更低&#xff0c…

【数据分享】《中国金融年鉴》1986-2020年PDF版

而今天要免费分享的数据就是1986-2020年间出版的《中国金融年鉴》并以多格式提供免费下载。&#xff08;无需分享朋友圈即可获取&#xff09; 数据介绍 《中国金融年鉴》自1986年起&#xff0c;逐年记录着中国金融领域的发展历程、政策变化和市场动态。这部年鉴不仅是金融专业…

利用人工智能技术提升返利App的智能推荐功能

利用人工智能技术提升返利App的智能推荐功能 大家好&#xff0c;我是免费搭建查券返利机器人省钱赚佣金就用微赚淘客系统3.0的小编&#xff0c;也是冬天不穿秋裤&#xff0c;天冷也要风度的程序猿&#xff01; 随着人工智能技术的迅猛发展&#xff0c;它已经渗透到了各行各业…

Halcon 基于分水岭的目标分割

一 分水岭 1 分水岭介绍 传统的分水岭分割方法&#xff0c;是一种基于拓扑理论的数学形态学的分割方法&#xff0c;其基本思想是把图像看作是地质学上的拓扑地貌&#xff0c;图像中每一像素的灰度值表示该点的海拔高度&#xff0c;每一个局部极小值及其周边区域称为集水盆地&…

企业私有模型和提示词工程初探

企业私有模型和提示词工程&#xff1a;提升AI应用的策略和方法 摘要 在当今竞争激烈的商业环境中&#xff0c;企业越来越依赖于人工智能&#xff08;AI&#xff09;技术来提高运营效率和创新能力。本文探讨了企业如何通过构建私有模型和应用提示词工程来优化AI系统。首先&…

ROS学习笔记(18):建图与定位(2)

0.前言 上文提到现在的我们已经进入到了SLAM领域的学习&#xff0c;会涉及到大量专业知识&#xff0c;作为一个自学的大三&#xff08;好吧也快大四了&#xff09;萌新并不能保证每次文章的专业性和准确性&#xff0c;所以&#xff0c;本人推荐大家能自己去查阅一些相关书籍和…

牛!手机、TV双端聚合,免费可同步!

哈喽&#xff0c;各位小伙伴们好&#xff0c;我是给大家带来各类黑科技与前沿资讯的小武。 有不少小伙伴闲时会选择观看游戏、户外、娱乐等各类的直播&#xff0c;而关注的主播可能驻留在不同直播平台&#xff0c;需要下载多个APP&#xff0c;且切换非常不方便。 所以今天给大…

缓存生命周期管理:探索Memcached的过期策略

缓存生命周期管理&#xff1a;探索Memcached的过期策略 在高效的缓存系统中&#xff0c;过期策略是确保数据时效性的关键。Memcached作为一个简单而强大的分布式内存缓存系统&#xff0c;提供了几种不同的缓存过期策略来满足不同的业务需求。本文将详细介绍Memcached的缓存过期…

OpenHarmony移植小型系统exynos4412(一)

新建芯片解决方案 1、新建目录 芯片解决方案的目录规则为:device/board/{芯片解决方案厂商}/{开发板}。以exynos的fs4412开发板为例,在代码根目录执行如下命令建立目录: mkdir -p device/exynos/fs4412 芯片解决方案目录树的规则如下: device/board └── company # 芯…

自定义动态数据源+事务控制

1&#xff1a;首先yml配置两个数据库的链接 spring:application:name: xxxxmain:banner-mode: OFFdatasource: # 默认数据源 datamarkdruid: # 关闭数据库的 web 访问stat-view-servlet:enabled: falseweb-stat-filter:enabled: falsefilt…