说明:文章内容来源于课程视频和课程ppt。我只学习了课程没有做习题。文章不是翻译,是我对课程的理解。
什么是文本搜索(Text Retrieval)
存在一个文档集,用户输入查询语句表示查询需求,搜索引擎返回搜索结果。这个过程一般被称为信息检索。但其实信息检索的范围更广泛。信息检索报告:文本检索、图片检索、视频检索等。
TR的特点
1 数据是非结构化的,并且有歧义;
2 查询语句是有歧义的,是不完整的;
3 返回的结果是与查询条件相关的
4 TR是一个经验主义的问题
TR的公式
计算R′(q),得到一个文档与搜索语句的相关性。计算策略使用文档排序,而不是文档选择。 f(d,q)=?
按照相关度降序排序是基于两个假设:1对一个用户来讲,文档之间是独立的;2 用户线性方式浏览结果的。
文档排序函数设计思路
1 基于相似度Similarity-based models f(d,q)=similarity(d,q)
Vector space model
2 概率模型(Probabilistic models) f(d,q)=p(R=1|d,q),whereR∈{0,1}
Language model
3 公理化模型(Axiomatic model)