【网络搜索】学习资料

文章目录

  • 1.综述
  • 2.相关技术
  • 3.课程
  • 4. 论文
    • 4.1综述
      • 召回
      • 预训练
    • 4.2 相关模型及论文
  • 5.书
  • 6. 博客
    • 6.1 电商搜索
    • QP:Query Processor
    • 相关性

1.综述

微软综述视频,较老但不过时

2.相关技术

相关技术目录

3.课程

北邮《网络搜索原理》2020

4. 论文

sigir

4.1综述

召回

Semantic Models for the First-Stage Retrieval: A Comprehensive Review

预训练

Pre-training Methods in Information Retrieval

4.2 相关模型及论文

BM25:介绍BM25的博客

  • 比tf-idf多了个文档长度的惩罚

5.书

Introduction to Information Retrieval
Introduction to Information Retrieval slides
课程介绍和video

6. 博客

信息检索中的花式预训练综述(Pre-training Methods in Information Retrieval)

6.1 电商搜索

0电商搜索:前言
1电商搜索QP:Query类目预测
2电商搜索QP:Query改写
3电商搜索QP:Term Weighting
4电商搜索:相关性
5电商搜索排序:总述
6电商搜索排序:召回
7电商搜索排序:向量召回(上)
8电商搜索排序:向量召回(下)
9电商搜索排序:向量召回(Tips)
10电商搜索排序-番外:特征工程
11电商搜索排序-番外:简话模型演进(传统方法)
12电商搜索排序:粗排
13电商搜索排序:精排
14电商搜索排序:重排

QP:Query Processor

分词、类目预测、改写、实体识别、term weighting等部分(各模块前后顺序会因系统需要而做适当调整):
1:电商搜索QP:Query类目预测
2电商搜索QP:Query改写
3电商搜索QP:Term Weighting

相关性

电商搜索:相关性匹配

  • 结构化信息匹配
    • query:统计、分类的方法,属性预测可以看做序列标注
    • item:query理解、商家和运营的维护
    • 在线进行结构化信息匹配,复杂度低,用做召回部分过滤
  • 文本匹配特征:加权term匹配率:matched/term_num
    • 其他信息:term权重,文档长度(BM25),term共现的紧密度和点互信息(PMI)特征、考虑用户行为和文本语义拓展等。
  • 语义匹配
    • 隐语义:文本->隐语义向量,LSA,PLAS,LDA,word2vec
    • 深度:表示型(得到向量表示,再计算相似度)、交互型(交互矩阵->相似度)、折中方法(PolyEncoder/Deformer)、蒸馏模型(DistillBert/TinyBert/…)
    • 多模态:表示(图像表示模型、文本表示模型),交互(图像->向量序列,再计算交互矩阵);VL-BERT/LXMERT/UNITER
  • 特征融合(LR/GBDT/NN)、多因子融合
    • 相关性、效率加权;目标和效率目标联合多目标优化;档位分,分层排序
  • 问题定位:策略的准确性和影响;badcase分析头部问题
  • 训练数据:高置信度样本挖掘(避免点击但不相关),定制化负样本构造,避免收敛过快
    • 正样本:充足曝光下的高点击样本(ctr大于同query下平均值)
    • 负样本:
      • 同父类目的邻居子目录
      • 高曝光、低点击
      • 充足曝光下,低于平均点击率的取一定百分比做负例
      • 基于query核心term替换构造负样本(query:品牌A+品类,负例:query:品牌B+品类)
      • 随机
        在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481432.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

论文新鲜出炉 - 数学家张益唐攻克 Landau-Siegel 零点猜想(2022-11-05)

来源:北大大纽约校友会感谢钱朝晖师兄、贾德星师兄的分享。张益唐老师厉害,出来了!虽然还有待数学权威机构认定,但以张老师的性格,没有攻克他不会轻易公开。看了一下PDF时间戳,是昨天的:2022-11…

神奇!一篇不足700字的论文,竟然能发表在Science上

来源:彭聃龄科学网博客 作者:彭聃龄(北京师范大学教授)文字:南方配图:南方排版 :南方一篇不足700单词的文章为什么能发表在国际顶级期刊 Science 杂志上?刊登在 Science 上的这篇文…

【搜索/推荐排序】FM,FFM,AFM,PNN,DeepFM:进行CTR和CVR预估

文章目录1.FM1.1代码-是否点击预测效果和参数量级1.3 和其他模型的比较SVMMF2. FFMone-hot的比较eg训练注意事项效果和参数量级实现3. AFM4.FNN/PNN4.1 FNN4.2 PNN5. DeepFM与Wide&Deep比较与NFMFM 本来就可以在稀疏输入的场景中进行学习,为什么要跟 Deep 共享稠…

科学家首次3D生物打印出血管化肿瘤,并成功使用免疫疗法治疗

近些年,癌症治疗领域不断取得了突破性进展,但仍缺乏标准化和生理相关的体外测试平台。一个关键性障碍是肿瘤微环境和免疫反应之间复杂的相互作用。因此,该领域研究人员不得不依赖临床试验来测试治疗效果,最终限制了抗癌治疗药物的…

【搜索/推荐排序】总结

文章目录1.进化路线2. 公式比较1.进化路线 LR:没有较叉项->FM:LR交叉项,一个特征一个向量->FFM:一个特征对每一个field(属性名)的交互有一个向量,一个特征有一个特征矩阵。->AFM:每个内积都有一个权重&#…

人工智能帮助揭秘生物衰老的原理

编辑 | 萝卜皮年龄是流行疾病和死亡的主要风险因素。然而,人们对与年龄相关的生理变化和寿命之间的关系知之甚少。新加坡 Gero PTE 公司的研究人员结合分析和机器学习工具来描述大量纵向测量中的老化过程。假设衰老是由有机体状态的动态不稳定性引起的,该…

DALL-E 2的错误揭示出人工智能的局限性

OpenAI的文字图像转换器与文本、科学和偏见作斗争。在2022年4月,人工智能(AI)研究实验室OpenAI继2021年推出的DALL-E后,又推出了DALL-E 2。这两个人工智能系统都可以根据自然语言的文本描述来生成令人惊奇的图像,包括照…

【搜索/推荐排序】NCF,DeepCross,Deep Crossing,高阶:AutoINt,AFN

文章目录0.交叉特征1.NCF1.1 问题:基于FM的问题问题动机:神经网络替代点积1.2 NCF模型图1.3代码2. Deep Crossing:微软:ResNet3.Deep&Cross4. AutoInt(19)摘要贡献相关工作:模型结构优缺点实…

中国指挥与控制学会关于申请加入《城市大脑系列建设标准规范》第二批团体标准参编单位的通知...

来源:中国指挥与控制学会各有关单位和相关专家:2022年04月14日,中国指挥与控制学会组织召开立项评审会,与会专家审议通过了8个相关团体标准的立项申请。2022年9月1日,《城市大脑系列建设标准规范》首批三项团体标准《城…

【搜索/推荐排序】Pairwise:BPR

1.BPR 1.1 做法 构建样本对假设背后是某个常见模型:如MF排序对成立情况下倒推U/V向量,计算UV乘积,得到完整评分矩阵 矩阵分解:XˉWHT\bar{X}WH^TXˉWHT 贝叶斯:P(θ∣>u)P(>u∣θ)P(θ)P(>u)P(\theta|>_…

见证历史!数学家张益唐北大讲座:本质上已证明“零点猜想”,111页论文已公开...

来源:AI前线整理:凌敏有数论学者表示,张益唐有关朗道 - 西格尔零点猜想的论文结果意义重大,使得以前的很多结果从假设性结果变成了确定性结果。张益唐在北大作“零点猜想”学术报告11 月 8 日上午 9 点,数学家张益唐在…

【搜索排序】召回综述Semantic Models for the First-Stage Retrieval: A Comprehensive Review

Semantic Models for the First-Stage Retrieval: A Comprehensive Review 文章目录管道语义模型1.召回形式化1.0 Indexing MethodsThe inverted index倒排索引approximate nearest neighbor (ANN)1.1 classical term-based retrieval methods,VSM概率方法BIM二元独立模型语言模…

Science 封面 4 文连发:大脑分区不是功能关键!智慧从脑区间连接中诞生

来源:深度学术搜索是时候重新认识一下我们大脑的运行原理了!最新一期顶刊Science,以特刊的形式连发 4 篇论文,剑指同一核心要点:大脑各种功能的关键,并不在于各脑区独立完成特定功能,而在于不同…

【信息检索导论1】布尔模型

1.Information Retrieval 定义: Information retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies an information need from within large collections (usually stored on computers). web search…

一个基于 Transformer 的深度学习架构,在基因调控中组蛋白代码的定量破译方面性能超群...

编辑 | 萝卜皮通过组蛋白修饰对转录控制的定量表征受到许多计算研究的挑战,但其中大多数只关注启动子周围的狭窄和线性基因组区域,留下了改进的空间。韩国首尔大学的研究人员提出了 Chromoformer,这是一种基于 Transformer 的三维染色质构象感…

【搜索排序】预训练综述Pre-training Methods in Information Retrieval

文章目录相关性效率系统预训练word embeddingtransformers2. 召回阶段2.1 Sparse Retrieval Models2.2 Dense Retrieval Models。2.3 混合方式3.re-rank阶段4. 其他组件4.1 在query理解上4.2 在doc理解上:未来工作数据集数据集中排行榜信息检索中的花式预训练综述&a…

i-Refill | 张益唐:虽未实现大海捞针,但摸透了整个海底的情况

来源:IDG资本#i-Refill欢迎回到本周的i-Refill! 我们知道,黎曼猜想是当代数学领域内最重要的待解决问题之一,很多深入和重要的数学及物理结果都将在它成立的大前提下得到证明。10月中,我们围绕数学家张益唐承认已攻克黎曼猜想的弱…

【搜索排序】(ReRank)A Deep Look into Neural Ranking Models for Information Retrieval

文章目录数据集3. 同一框架4. 模型结构-对称与非对称对称结构:s,t可互换siamese networksSymmetric interaction networks,非对称结构query splitdocument splitJoint split,one-way attention mechanism基于表示的模型和基于交互的模型representation-focused arch…

2022全国市域治理与城市大脑峰会开放报名

来源:中国指挥与控制学会未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术…

新的深度学习方法可能有助于预测大脑认知功能

编辑 | 萝卜皮人类大脑结构与认知功能的关系很复杂,而这种关系在儿童期和成年期之间有何不同却知之甚少。一个强有力的假设表明,流体智能(Gf)的认知功能依赖于前额叶皮层和顶叶皮层。在这项工作中,西北大学&#xff08…