专心做搜索也能登顶CLUE分类榜?在快手做搜索是一种怎样的体验

e410c62b89ad5ac3105cd0b71f1850aa.png

文 | 快手搜索

短视频和直播,越来越成为重要的内容供给形式,而内容供给侧的改变,也在潜移默化地推动着用户搜索习惯的变化。据报道,截止今年4月,超过50%的用户都在使用快手搜索功能,每天搜索达到2.5亿次,每天有超百万部作品被用户搜索到,截止今年8月,快手搜索日均搜索次数超过3亿,用户利用快手搜索的习惯似乎在逐步养成。

1b05529a5326a18f46b2132e5f3f5ebc.png
▲图1 快手上的短视频案例

区别于传统的网页搜索,在快手的短视频搜索场景中的主要挑战为:

主要内容是短视频

网页的主要信息载体为文字,往往具备比较丰富的上下文描述,而相对来说,短视频的表达载体更加多元化,一部分上下文信息可以通过视觉或者听觉的方式传递给用户,而不再需要额外的文本描述,最终导致短视频的文本信息往往相对网页来说更加短小精悍;上下文的缺乏,就对模型的文本语义刻画能力和多模态理解能力有了更高的要求。

较显著的社区特性

快手搜索的内容生产者和消费者,都带有比较显著的社区特性:由于快手更加强调其社交属性,用户在日常的相互沟通和讨论中,往往会产生一系列这个社区内独有的“黑话”,这些社区文化的产生,一定程度上就会造成相同的文字在快手社区内和全网范围内,表义完全不同的现象,例如:同样是搜索“礼物”,在传统搜索引擎中,获取到的往往是例如“礼物如何购买”,“礼物推荐”等相关内容,而在快手社区内,term“礼物”还有另一层含义,就是网红“小礼物”,这类具有特色的社区文化,就会使得一些开源的模型和算法,在实际场景中难以发挥出较强的作用。

ab3fed09df93a6f674f5337898948311.png

▲图2 快手网红小礼物

破圈挑战

满足社区内需求的同时,也需要不断应对破圈过程中的各种挑战:用户规模的不断增加和搜索需求的不断增加,就需要相应的搜索算法能够未雨绸缪,想办法具备更强的泛化能力,能够同时处理社区内(in-domain)和社区外(out-of-domain)的不同输入和信息,从而达到为整体业务破圈保驾护航的作用。

PERKS

为了应对上述挑战,快手搜索的NLPers针对快手搜索场景,打造了一套更加全面的模型评估体系,同时涵盖了内部业务数据集和外部公开数据集,以此来模拟对in-domain任务和out-of-domain任务的处理能力,同时,面向快手搜索业务特点,打造了一个具有快手搜索特色的预训练语言模型:PERKS(Pre-trained Embedding Representation for Kuai Search),相比于其他开源的预训练语言模型,PERKS在技术上具有以下特点:

数据准备层面

分别收集了TB级别的内部和外部语料,其中,内部语料包括视频中文字标题,高置信度的视频ocr识别结果,和高置信度的视频asr识别结果,该视频的相关评论和点击query,通过视觉学习到的视频tag等文本内容,并通过文字出现的位置和时间等信息,将一个视频中的文字组织成一个文档,以便于进行训练。外部语料中,除了常见的开源百科数据,还包括一些开源的新闻网站内容。经过各种预处理过滤掉不置信内容,去除冗余信息后,一个高质量,同时包含内部特色和外部特色的数据集就构造出来了。

训练任务层面

为了让模型能够同时学习到不同领域,不同粒度的语言知识,参考MMOE思想,设计了一个多阶段,多任务的学习模式,包括,第一阶段(pre-pretrain)使用百科数据学习Masked Langauge Model(采用了dynamic whole-word-masking),去学习基础的语言知识。

二阶阶段(pre-train),使用内部语料和外部语料进行混合,并且将训练任务扩展为:dynamic-whold-word-masking,char-reorder,knowledge-masking(通过百科和内部关键实体识别技术,对齐到的知识信息进行mask),important-whole-word-masking等,并在这个阶段引入sentence-order-prediction,sentence-distance-prediction,sentence-source-prediction(这段文本是来自于ocr,asr,网页数据,还是其他部分)等任务,用于刻画句子级知识,通过课程学习的方式,在训练过程中逐步调整不同任务的配比,让模型逐渐学习到更具有挑战的知识。

经过第二阶段,模型就学习到了一个比较大而全面的通用语言知识。在最终阶段(post-pretrain),PERKS会针对下游任务的特点,对in-domain和out-of-domain的语料,进行不同比例的采样,并根据当前下游任务是处理word-level还是sentence-level任务的特点,对于训练任务进行调整,并在一个精选数据上,进行微调,例如针对ANN召回任务和双塔语义模型,PERKS在最终阶段采用了采用对比学习作为主任务,并使用其他部分任务作为辅助任务,进行最终阶段的学习。

782b421fe233f00df10baf5335cd3c61.png
▲图3 ERNIE-3中所采用的Knowledge-Text Prediction

模型结构层面

针对不同下游任务的特点:视频内容理解,语义相关性,query分析等,PERKS提供了一系列不同规模和不同特点的模型。同时一些常见的模型结构优化,如pre-layer-norm,采用相对位置编码和绝对位置编码的混合模式等方式,也都在PERKS的训练过程中被验证为有效并融入到模型中。

工程优化层面

为了让TB级的语料可以更容易被使用,以及方便未来可以兼容BM25,ANN等hard negatives的生成和训练,PERKS在分布式训练过程中,抽象了一个分布式的DataSet用于挂载整体训练样本,其中,不同GPU节点使用ring-all-reduce进行梯度更新,在GPU计算和梯度更新过程中,异步data-loader不停跟这个分布式data-set进行交互,实时获取不同的训练样本,从而提升整体训练的迭代速度。此外,一些常见的训练trick,如fp16,recompute,梯度累积,lamb等,也都被作为标配应用于PERKS中。

模型评估

如何评价 PERKS 在圈外场景的效果展现,快手搜索的NLPers把目光投向了公开数据集 CLUE 上,因搜索场景与分类的场景更加接近,由此选择 CLUE 中的分类任务来验证模型。在模型的迭代过程中,PERKS 在 CLUE 1.1分类任务中展现出了较好的表现,于11月4日成功登顶 CLUE 1.1分类任务排行榜,这也是给快手搜索的NLPers的一次激励!

3379e31a55381aff699e29c61641d473.png
▲图4 CLUE1.1分类任务排行榜(HUMAN 为人工标注结果,不参与模型排名)

再来看看破圈后的 PERKS 在探针实验上的表现。如图5所示,可以惊奇的发现破圈后的模型不仅能够准确预测“小红心”,就连“小红书”这样的圈外知识也被模型吸收了进来!

301728a5d140807b09ab4dfb90ddaef5.png
▲图5 探针(Probing)实验

最后

自然语言处理工程师在快手搜索场景中能够施展才华的机会和空间还有很多,研究者也欢迎更多的 NLPer 加入进来,一起进步,一起用生活回答每一种生活!

1b89eedf9111ca59a36edf29eed1e37c.png后台回复关键词【入群

加入卖萌屋NLP/IR/Rec与求职讨论群

后台回复关键词【顶会

获取ACL、CIKM等各大顶会论文集!

3af2c725db2f0fcc6b254dab1b1277f9.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/477902.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

开源开放 | 一个融合多元关系和事件表示的金融领域本体模型FTHO(CCKS2021)

OpenKG地址:http://openkg.cn/dataset/ftho开放许可协议:GPL 3.0贡献者:武汉科技大学(高峰、郑丽丽、顾进广)摘要在此开放资源中,面对金融领域多元关系表示的困境和时序事件表示需求,我们以OWL语…

LeetCode 114. 二叉树展开为链表(递归)

1. 题目 给定一个二叉树,原地将它展开为链表(右侧路径)。 例如,给定二叉树1/ \2 5/ \ \ 3 4 6 将其展开为:1\2\3\4\5\6来源:力扣(LeetCode) 链接:https://leet…

论文浅尝 - CIKM2021 | DT-GCN: 一种双曲空间中的数据类型感知的知识图谱表示学习模型...

论文作者:申雨鑫,天津大学硕士发表会议:CIKM 2021链接:https://dl.acm.org/doi/pdf/10.1145/3459637.3482421动机知识图谱表示学习旨在将实体和关系编码到一个连续的低维向量空间中。大多数现有方法主要在欧氏空间中学习结构三元组…

NLP太难学了!?吃透NLP的方法来拿走

最近有粉丝私信我,NLP很难学,这条路能坚持走吗?有相同困惑的朋友可以一起探讨一下:大佬你好,我目前从事ERP运维工作,想转行NLP,开始是学数据结构和c刷了些leetcode题,然后把cs224n和…

LeetCode 1161. 最大层内元素和(层序遍历)

1. 题目 给你一个二叉树的根节点 root。设根节点位于二叉树的第 1 层,而根节点的子节点位于第 2 层,依此类推。 请你找出层内元素之和 最大 的那几层(可能只有一层)的层号,并返回其中 最小 的那个。 示例&#xff1…

图谱实战 | 京东商品图谱构建与实体对齐

转载公众号 | DataFunTalk 分享嘉宾:赵学敏博士 京东科技编辑整理:蔡丽萍 TRS出品平台:DataFunTalk导读:在电商企业采购和运营过程中,如果要想掌握商品的实时价格等行情信息,就需要对齐各个电商网站的商品…

Quartz应用与集群原理分析

一、问题背景 美团CRM系统中每天有大量的后台任务需要调度执行,如构建索引、统计报表、周期同步数据等等,要求任务调度系统具备高可用性、负载均衡特性,可以管理并监控任务的执行流程,以保证任务的正确执行。 二、历史方案 美团CR…

卖萌屋新闻联播栏目,倾情上线~

编 | 小轶感谢提供本期内容的 iven、ZenMoore、 jxyxiangyu、付瑶今天这篇推文是卖萌屋全新的原创系列———暂且取名为“卖萌屋新闻联播”节目。卖萌屋的作者、小编日常都会在团队群里分享各种最新发现的实用资源、有意思的学术工作。小伙伴们在互相分享的过程中都受益匪浅。我…

LeetCode 386. 字典序排数(DFS循环)

1. 题目 给定一个整数 n, 返回从 1 到 n 的字典顺序。 例如, 给定 n 1 3,返回 [1,10,11,12,13,2,3,4,5,6,7,8,9] 。 请尽可能的优化算法的时间复杂度和空间复杂度。 输入的数据 n 小于等于 5,000,000。来源:力扣(LeetCode&#…

论文浅尝 | 基于多模态特征的视觉实体链接

转载公众号 | 数据智能英文刊文章题目:Visual Entity Linking via Multi-modal Learning作者:郑秋硕,闻浩,王萌,漆桂林引用:Zheng, Q.S., et al.: Visual Entity Linking via Multi-modal Learning. Data I…

一训练就显存爆炸?Facebook 推出 8 比特优化器,两行代码拯救你的显存!

文 | jxyxiangyu编 | 小轶“小夕,小夕!又出来了个 SOTA 模型!赶紧 follow !”小夕看了看新模型的参数量, 然后看了看实验室服务器的几张小破卡。小夕,陷入了沉默。自从人们发现越大的模型性能越好后&#x…

论文浅尝 | 基于正交普鲁克分析的高效知识图嵌入学习

笔记整理:朱渝珊,浙江大学在读博士,研究方向为快速知识图谱的表示学习,多模态知识图谱。1.Motivation知识图谱是许多NLP任务和下游应用的核心,如问答、对话代理、搜索引擎和推荐系统。知识图中存储的事实总是以元组的形…

LeetCode 979. 在二叉树中分配硬币(DFS)

文章目录1. 题目2. DFS 解题1. 题目 给定一个有 N 个结点的二叉树的根结点 root,树中的每个结点上都对应有 node.val 枚硬币,并且总共有 N 枚硬币。 在一次移动中,我们可以选择两个相邻的结点,然后将一枚硬币从其中一个结点移动…

有福利! 好书推荐:从《实用推荐系统》学习寻找用户行为之法

大多数关于推荐系统的图书都讲述了算法及其优化方法。这些书都认为你已经有了一个大的数据集来供算法使用。数据集不会像变魔术那样凭空出现。要想收集到正确的用户偏好数据,就需要投入精力和进行思考。它会成就你的系统,或者搞砸你的系统。“垃圾进&…

灵活强大的构建系统Gradle

前言 构建,软件生命周期中重要的一环,在现代软件开发过程中,起着越来越重要的作用。过去在Java或类Java的世界里,Ant、Maven再熟悉不过了,Maven凭借其强大的依赖配置战胜Ant,基本上成为了Java构建的标准。而…

LeetCode 791. 自定义字符串排序(map)

1. 题目 字符串S和 T 只包含小写字符。在S中,所有字符只会出现一次。 S 已经根据某种规则进行了排序。我们要根据S中的字符顺序对T进行排序。更具体地说,如果S中x在y之前出现,那么返回的字符串中x也应出现在y之前。 返回任意一种符合条件的…

6万字解决算法面试中的深度学习基础问题

文 | 清卢雨源 | 对白的算法屋前言真的是千呼万唤始出来emmmm,去年春招结束写了篇面试的经验分享。在文中提到和小伙伴整理了算法岗面试时遇到的常见知识点及回答,本想着授人以渔,但没想到大家都看上了我家的 !但因本人执行力不足…

OpenKG开源系列 | 海洋鱼类百科知识图谱(浙江大学)

OpenKG地址:http://openkg.cn/dataset/ocean开放许可协议:CC BY-SA 4.0贡献者:浙江大学(徐雅静、邓鸿杰、唐坤、郑国轴)1、背景海洋是生命的摇篮,是人类文明的重要发祥地,在人类社会发展的进程中起着举足轻重的作用。海…

Presto实现原理和美团的使用实践

Facebook的数据仓库存储在少量大型Hadoop/HDFS集群。Hive是Facebook在几年前专为Hadoop打造的一款数据仓库工具。在以前,Facebook的科学家和分析师一直依靠Hive来做数据分析。但Hive使用MapReduce作为底层计算框架,是专为批处理设计的。但随着数据越来越…

图谱实战 | 徐美兰:深度应用驱动的医学知识图谱构建

转载公众号 | DataFunSummit分享嘉宾:徐美兰 浙江数字医疗卫生技术研究院 数字医学知识中心主任编辑整理:李杰 京东出品平台:DataFunTalk导读:数研院这些年在知识图谱建设上取得了丰硕成果,今天我们将图谱构建过程中的…