COMP 6714-Info Retrieval and Web Search笔记week2

在这里插入图片描述
tokenizer:分词器
右半部分:倒排索引
Westlaw
AND(&): 要搜索必须同时出现在文档中的两个或多个词语,请使用 AND(&)。例如,输入 narcotics & warrant,即可检索包含这两个词语的文档。请注意,当你使用 & 连接符时,这些词语可能会出现在文档的不同页面上。
OR(OR): 要搜索替代词语,请使用 OR 连接符,它用空格表示。例如,输入 attorney lawyer counsel,即可检索包含至少一个这些词语的文档。
词根扩展符 ROOT EXPENDER(!):要搜索具有多个词尾的单词,请在词根后使用词根扩展符(!)。例如,输入 object!,即可检索“object”、“objected”、“objection”和“objecting”。
通配符UNIVERSAL CHARACTER(*):要搜索包含可变字符的单词,请使用通配符()。例如,输入 withdrw,即可检索“withdraw”和“withdrew”
精确搜索SEARCH EXACTLY AS TYPED(#) 要完全按照你输入的形式搜索单词,请在单词前使用井号(#)。例如,输入 #damage,即可检索“damage”,而不会检索“damages”。井号会关闭复数形式和等效词(equivalents)的匹配。
短语搜索(“ ”):要搜索一个短语,请使用引号(“ ”)。例如,输入 “res ipsa loquitur”,即可检索该短语。引号表示精确匹配,搜索引擎或查询系统会按照完全相同的顺序来匹配这些词,且不允许在它们之间插入其他词。如果你搜索没有引号的关键词,搜索引擎可能会返回包含这些关键词的所有文档,而不管它们是否是连续出现的

/p:搜索词必须出现在同一段落中
+p:第一个搜索词位于第二个搜索词之前
/s:搜索词必须出现在同一句话中。例如,design /s defect
+s:第一个搜索词必须位于第二个词之前,且两者出现在同一句话中。例如,attorney +s fee

/n:搜索词必须在彼此相隔 n 个词以内,不区分先后顺序,其中 n 是 1 到 255 之间的数字。例如,personal /3 jurisdiction
+n:第一个搜索词必须在 n 个词之内出现在第二个词之前,其中 n 是 1 到 255 之间的数字。例如,capital +3 gain。
排除连接符(%):你可以使用排除连接符(%)在搜索末尾排除包含某些词的文档。Westlaw 会排除搜索中 % 之后的所有词。例如,查询 tax taxation /s income % investment 会检索包含 tax 或 taxation 且与 income 在同一句话中的文档,但排除其中包含 investment 的文档
Westlaw 按以下顺序处理查询中的连接符:

“ ”、空格(OR)、+n、/n、+s、/s、+p、/p、&、%

作业
1.跳表指针(skip pointer)对哪些查询有用?
A. x OR (NOT y)
B. x AND y
C. x AND (NOT y)
D. x OR y
E. NOT x
答:B、C,跳表指针常用于加速合并倒排列表的过程
2.stemming词干提取
减少词汇的大小(size of vocabulary)
提高召回率(recall):因为考虑了不同的单词形式,从而检索到更多相关文档
降低精确率(precision):可能导致检索到一些不相关的文档,这些文档包含了词干相同但语义不同的词,如"run"和"runner"可能会被不恰当的归为同一类
词干提取在索引(indexing time)和查询(processing a query)时都进行,以确保查询中的词项于索引中的词项一致
7. Query (microsoft & google)(microsoft & amazon)
grep命令详解

grep -Ei '(microsoft.*google|microsoft.*amazon)' *
(grep -i 'microsoft' * | grep -i 'google') || (grep -i 'microsoft' * | grep -i 'amazon')

8.microsoft +5 revenue earning

grep -Eio 'microsoft([^ ]+ ){1,5}(revenue|earning)' *

9.“App Store” iOS android /10 mobile game

grep -E -i 'App Store' * | perl -nle 'print if /iOS|android/ && /(?:\b\w+\b\s*){0,10}(mobile|game)/i'

10.(game +8 streaming)(microsoft /s license)
不行了搞不出来了,感觉还是复制到word高级查找吧

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/55084.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于单片机的催眠电路控制系统

** 文章目录 前言一 概要功能设计设计思路 软件设计效果图 程序文章目录 前言 💗博主介绍:✌全网粉丝10W,CSDN特邀作者、博客专家、CSDN新星计划导师,一名热衷于单片机技术探索与分享的博主、专注于 精通51/STM32/MSP430/AVR等单片机设计 主…

【2024工业3D异常检测文献】CMDIAD: 基于跨模态蒸馏驱动的多模态工业异常检测

Incomplete Multimodal Industrial Anomaly Detection via Cross-Modal Distillation 1、Background 近年来,基于3D点云和RGB图像的多模态工业异常检测(IAD)研究强调了利用模态间的冗余性和互补性对于精确分类和分割的重要性。 在项目中,提出了CMDIAD方…

如何在算家云搭建MVSEP-MDX23(音频分离)

一、MVSEP-MDX23简介 模型GitHub网址:MVSEP-MDX23-music-separation-model/README.md 在 main ZFTurbo/MVSEP-MDX23-音乐分离模型 GitHub 上 在音视频领域,把已经发布的混音歌曲或者音频文件逆向分离一直是世界性的课题。音波混合的物理特性导致在没有…

js列表数据时间排序和取唯一值

1.取唯一值[...new Set(array)] const array [1, 2, 3, 2, 4, 5, 3, 5]; // 使用Set去除重复元素 const uniarray [...new Set(array)]; console.log(uniarray); // 输出: [1, 2, 3, 4, 5] 2.排序 var u [1,3,2,5,4]; var uu u.sort(); console.log(uu); var u [1,3…

【UE5】将2D切片图渲染为体积纹理,最终实现使用RT实时绘制体积纹理【第四篇-着色器投影-接收阴影部分】

上一章中实现了体积渲染的光照与自阴影,那我们这篇来实现投影 回顾 勘误 在开始本篇内容之前,我已经对上一章中的内容的错误进行了修改。为了确保不会错过这些更正,同时也避免大家重新阅读一遍,我将在这里为大家演示一下修改的…

算法分析——《二分查找》

🛩《二分查找》 🎨题目描述: 给定一个 n 个元素有序的(升序)整型数组 nums 和一个目标值 target ,写一个函数搜索 nums 中的 target,如果目标值存在返回下标,否则返回 -1。 示例 …

Java基础(Arrays工具类)(asList()方法)(详细)

目录 一、Arrays工具类 (1)引言 (2)基本介绍 (3)主要功能(提供的方法) (I)排序(Arrays.sort()) (II)搜索(查找…

怎么给视频加片头片尾和字幕

在这个视觉内容爆炸的时代,一段精心制作的视频不仅能吸引眼球,更能传达深刻的情感与信息。而一个引人入胜的片头、一个温馨感人的片尾,以及恰到好处的字幕,无疑是提升视频质感的关键。那么新人要怎么给视频加片头片尾和字幕效果呢…

Springboot项目-实战2-实现

文章目录 接口接收数据并进行数据清洗mysql读取到redis接口返回参数对象java函数使用备注返回参数分析stream操作Thread线程队列集合存储统计加密日志以及aspect对接口的时间影响?war包和jar包的区别?filter、interceptor、aspect区别?探针Gs…

如何在 Kubernetes 上部署和配置开源数据集成平台 Airbyte?

在 Kubernetes 上部署和配置 Airbyte 是一个复杂但非常有价值的过程,特别是对于需要强大数据集成和数据处理能力的企业或团队。Airbyte 是一个开源的数据集成平台,允许用户从各种来源提取数据并加载到目标存储中。其强大的插件系统支持多种数据源与目标&…

C语言 | Leetcode C语言题解之第440题字典序的第K小数字

题目&#xff1a; 题解&#xff1a; #define MIN(x, y) ((x) < (y) ? (x) : (y))int getSteps(int curr, long n) {int steps 0;long first curr;long last curr;while (first < n) {steps MIN(last, n) - first 1;first first * 10;last last * 10 9;}return …

QT使用qss控制样式实现动态换肤

文章目录 设计QSS样式表动态加载QSS文件主函数调用QT提供了一种非常灵活的方式来使用QSS(Qt Style Sheet,类似于 CSS 的样式表),实现界面的动态换肤功能。QSS可以改变Qt应用程序中几乎所有可视组件的外观,包括颜色、字体、边框等。下面介绍一下如何通过QSS实现动态换肤。 设…

诗画紫砂壶

大家详细解答一首网络上流传的顺口溜&#xff0c;其中包含了很多的紫砂壶型。 // 紫砂壶型 // 秦权汉瓦唐羽仙&#xff0c;西施文旦美人肩。 逸公德钟对却月&#xff0c;仿鼓虚扁望方山。东坡提梁卧井栏&#xff0c;供春提璧看柿圆。荷花海棠吹松段。掇只君乐奏合欢&#xff…

vue3中< keep-alive >页面实现缓存及遇到的问题

vue3中< keep-alive >页面实现缓存及遇到的问题 实现原理&#xff1a;keep-alive 是 Vue 的内置组件&#xff0c;当它包裹动态组件时&#xff0c;会缓存不活动的组件实例&#xff0c;而不是销毁它们。实现不同路由是否缓存只需要设置对应路由参数keepAlive为true&#xf…

64.【C语言】再议结构体(下)

本文衔接第63篇63.【C语言】再议结构体(上) 目录 目录 6.复习 7.修改默认对齐数 8.结构体传参 01.传递非指针参数 02.传递指针参数(传递地址) 03.对比 9.结构体实现位段 01.位段的定义 02.格式 03.例题 答案速查 分析 10.位段跨平台问题 11.位段的应用 12.其他…

scrapy 爬取微博(五)【最新超详细解析】: 爬取微博文章

1 读取配置参数 爬取微博文章首先需要读取settings.py中的设置的配置变量&#xff0c;然后编写爬虫&#xff0c;读取的配置变量主要有爬取的关键词、时间范围、爬取区域等。 class WeiboSearchSpider(scrapy.Spider):name weibo_searchallowed_domains [weibo.com]settings…

完成UI界面的绘制

绘制UI 接上文&#xff0c;在Order90Canvas下创建Image子物体&#xff0c;图片资源ui_fish_lv1&#xff0c;设置锚点&#xff08;CountdownPanelImg同理&#xff09;&#xff0c;命名为LvPanelImg,创建Text子物体&#xff0c;边框宽高各50&#xff0c; &#xff0c;重名为LvT…

影刀---如何进行自动化操作

本文不是广告&#xff0c;没有人给我宣传费&#xff0c;只是单纯的觉得这个软件很好用 感谢大家的多多支持哦 本文 1.基本概念与操作&#xff08;非标准下拉框和上传下载&#xff09;非标准对话框的操作上传对话框、下载的对话框、提示的对话框 2.综合案例3.找不到元素怎么办&a…

css 中 ~ 符号、text-indent、ellipsis、ellipsis-2、text-overflow: ellipsis、::before的使用

1、~的使用直接看代码 <script setup> </script><template><div class"container"><p><a href"javascript:;">纪检委</a><a href"javascript:;">中介为</a><a href"javascript:…

架构师:消息队列的技术指南

1、简述 消息队列(Message Queue, MQ)是一种异步通信机制,允许系统的各个组件通过消息在彼此之间进行通信。消息队列通过解耦系统组件、缓冲高峰期请求和提高系统的可扩展性,成为分布式系统中不可或缺的一部分。 2、工作原理 消息队列的基本工作原理是生产者将消息发布到…