1.综述

微软综述视频，较老但不过时

2.相关技术

3.课程

北邮《网络搜索原理》2020

4. 论文

sigir

4.1综述

召回

Semantic Models for the First-Stage Retrieval: A Comprehensive Review

预训练

Pre-training Methods in Information Retrieval

4.2 相关模型及论文

BM25:介绍BM25的博客

比tf-idf多了个文档长度的惩罚

5.书

Introduction to Information Retrieval
Introduction to Information Retrieval slides
课程介绍和video

6. 博客

信息检索中的花式预训练综述（Pre-training Methods in Information Retrieval）

6.1 电商搜索

0电商搜索：前言
1电商搜索QP：Query类目预测
2电商搜索QP：Query改写
3电商搜索QP：Term Weighting
4电商搜索：相关性
5电商搜索排序：总述
6电商搜索排序：召回
7电商搜索排序：向量召回（上）
8电商搜索排序：向量召回（下）
9电商搜索排序：向量召回(Tips)
10电商搜索排序-番外：特征工程
11电商搜索排序-番外：简话模型演进（传统方法）
12电商搜索排序：粗排
13电商搜索排序：精排
14电商搜索排序：重排

QP：Query Processor

分词、类目预测、改写、实体识别、term weighting等部分（各模块前后顺序会因系统需要而做适当调整）：
1:电商搜索QP：Query类目预测
2电商搜索QP：Query改写
3电商搜索QP：Term Weighting

相关性

电商搜索：相关性匹配

结构化信息匹配
- query:统计、分类的方法，属性预测可以看做序列标注
- item:query理解、商家和运营的维护
- 在线进行结构化信息匹配，复杂度低，用做召回部分过滤
文本匹配特征：加权term匹配率：matched/term_num
- 其他信息：term权重，文档长度（BM25）,term共现的紧密度和点互信息（PMI）特征、考虑用户行为和文本语义拓展等。
语义匹配
- 隐语义：文本->隐语义向量，LSA,PLAS,LDA,word2vec
- 深度：表示型（得到向量表示，再计算相似度）、交互型（交互矩阵->相似度）、折中方法（PolyEncoder/Deformer）、蒸馏模型（DistillBert/TinyBert/…）
- 多模态：表示（图像表示模型、文本表示模型），交互（图像->向量序列，再计算交互矩阵）；VL-BERT/LXMERT/UNITER
特征融合（LR/GBDT/NN）、多因子融合
- 相关性、效率加权；目标和效率目标联合多目标优化；档位分，分层排序
问题定位：策略的准确性和影响；badcase分析头部问题
训练数据：高置信度样本挖掘（避免点击但不相关），定制化负样本构造，避免收敛过快
- 正样本：充足曝光下的高点击样本（ctr大于同query下平均值）
- 负样本：
  - 同父类目的邻居子目录
  - 高曝光、低点击
  - 充足曝光下，低于平均点击率的取一定百分比做负例
  - 基于query核心term替换构造负样本（query:品牌A+品类，负例：query:品牌B+品类）
  - 随机