文章目录
- 1.综述
- 2.相关技术
- 3.课程
- 4. 论文
- 4.1综述
- 召回
- 预训练
- 4.2 相关模型及论文
- 5.书
- 6. 博客
- 6.1 电商搜索
- QP:Query Processor
- 相关性
1.综述
微软综述视频,较老但不过时
2.相关技术
相关技术目录
3.课程
北邮《网络搜索原理》2020
4. 论文
sigir
4.1综述
召回
Semantic Models for the First-Stage Retrieval: A Comprehensive Review
预训练
Pre-training Methods in Information Retrieval
4.2 相关模型及论文
BM25:介绍BM25的博客
- 比tf-idf多了个文档长度的惩罚
5.书
Introduction to Information Retrieval
Introduction to Information Retrieval slides
课程介绍和video
6. 博客
信息检索中的花式预训练综述(Pre-training Methods in Information Retrieval)
6.1 电商搜索
0电商搜索:前言
1电商搜索QP:Query类目预测
2电商搜索QP:Query改写
3电商搜索QP:Term Weighting
4电商搜索:相关性
5电商搜索排序:总述
6电商搜索排序:召回
7电商搜索排序:向量召回(上)
8电商搜索排序:向量召回(下)
9电商搜索排序:向量召回(Tips)
10电商搜索排序-番外:特征工程
11电商搜索排序-番外:简话模型演进(传统方法)
12电商搜索排序:粗排
13电商搜索排序:精排
14电商搜索排序:重排
QP:Query Processor
分词、类目预测、改写、实体识别、term weighting等部分(各模块前后顺序会因系统需要而做适当调整):
1:电商搜索QP:Query类目预测
2电商搜索QP:Query改写
3电商搜索QP:Term Weighting
相关性
电商搜索:相关性匹配
- 结构化信息匹配
- query:统计、分类的方法,属性预测可以看做序列标注
- item:query理解、商家和运营的维护
- 在线进行结构化信息匹配,复杂度低,用做召回部分过滤
- 文本匹配特征:加权term匹配率:matched/term_num
- 其他信息:term权重,文档长度(BM25),term共现的紧密度和点互信息(PMI)特征、考虑用户行为和文本语义拓展等。
- 语义匹配
- 隐语义:文本->隐语义向量,LSA,PLAS,LDA,word2vec
- 深度:表示型(得到向量表示,再计算相似度)、交互型(交互矩阵->相似度)、折中方法(PolyEncoder/Deformer)、蒸馏模型(DistillBert/TinyBert/…)
- 多模态:表示(图像表示模型、文本表示模型),交互(图像->向量序列,再计算交互矩阵);VL-BERT/LXMERT/UNITER
- 特征融合(LR/GBDT/NN)、多因子融合
- 相关性、效率加权;目标和效率目标联合多目标优化;档位分,分层排序
- 问题定位:策略的准确性和影响;badcase分析头部问题
- 训练数据:高置信度样本挖掘(避免点击但不相关),定制化负样本构造,避免收敛过快
- 正样本:充足曝光下的高点击样本(ctr大于同query下平均值)
- 负样本:
- 同父类目的邻居子目录
- 高曝光、低点击
- 充足曝光下,低于平均点击率的取一定百分比做负例
- 基于query核心term替换构造负样本(query:品牌A+品类,负例:query:品牌B+品类)
- 随机