文娱行业搜索最佳实践

内容搜索的价值主要体现在两个方面:

对用户而言,用户将搜索作为寻找内容的工具,目标是“搜的到,搜的准”。用户更关心搜索结果的相关性、时效性和多样性。

对平台而言,搜索是内容消费、流量引导的核心入口,目标是提升用户满意度与留存率。更进一步,搜索还能支持平台的宣发和商业价值,实现业务增长与流量变现。

常见文娱搜索场景

  1. 新闻、资讯搜索
  2. 社区、论坛、话题搜索
  3. 影音娱乐搜索
  4. 在线阅读小说、网漫、文章搜索
  5. 图像、视频搜索

文娱搜索业务特点

  • 搜索效果需保证时效性和个性化
  • 涉及多频道、多类别,内容覆盖广泛,需要精准理解用户搜索意图
  • 热搜、下拉提示等搜索引导功能流量占比高
  • 可能有文字、语音、图像、视频综合的多模态搜索需求

搜索痛点

  1. 用户用词规范程度参差不齐,文本内容复杂,用户意图理解要求高
  2. 内容垂类特殊,需要行业数据积累,分词和查询分析难度大
  3. 千人千面的的个性化搜索,需要5人以上的算法团队持续投入,成本高,周期长
  4. 业务导向性差,无法通过搜索实现付费内容引导

开放搜索内容文娱增强版解决方案

内容文娱行业分词模型

对于内容文娱行业,OpenSearch汇集多个相关数据来源,利用千万级数据训练了行业增强版分词模型。

针对更加特殊的垂类业务场景,在原有分词算法模型基础上,支持基于业务数据的定制分词模型,提供专属文本分词器。

文本通用版内容文娱版
拜仁或将签下凯恩以接替莱万拜仁 或 将 签 下 凯恩 以 接替 莱 万拜仁 或 将 签 下 凯恩 以 接替 莱万
夜兰配队夜 兰 配 队夜兰 配 队
复联4高燃场面复 联 4 高燃 场面复联 4 高燃 场面
彭昱畅和江疏影演情侣彭昱 畅和 江疏影 演 情侣彭 昱畅 和 江 疏影 演 情侣

内容文娱行业向量模型

相比传统文本搜索通过分词、同义词、纠错、词权重等算法技术增强语义搜索效果,基于深度学习的语义向量召回模型具备更强大的表征能力,可以更好地处理用户查询词中的简写、别名、拼写错误等情况。

开放搜索OpenSearch和阿里达摩院合作自研的向量召回技术,在业界知名榜单MS MARCO上夺冠。

结合文娱行业数据训练的向量召回模型目前已在OpenSearch对客户透出。

query詹姆士绝杀
向量召回 TOP 1詹姆斯绝杀
向量召回 TOP 2詹姆斯不是绝杀?
向量召回 TOP 3关于詹姆斯绝杀球
query佐鸣
向量召回 TOP 1鸣佐结局
向量召回 TOP 2鸣人喜欢佐助哪点
向量召回 TOP 3鸣人和佐助谁更强?

内容文娱行业CTR排序模型

针对内容文娱行业往往个性化诉求和实时性需求较高。比如不同用户兴趣爱好的引导、以及当天的热点事件引导。

CTR预估模型充分结合行业特点,保障搜索个性化建模和内容实时性。整体网络框架如下:

CTR预估模型可以根据客户特点和诉求做对应模型定制和链路定制,以达到更优业务转化效果。

球鞋爱好者搜:科比粉丝搜:科比8.24当天搜:科比
科比那些年穿过的球鞋科比10佳投篮精彩瞬间球迷致敬科比
科比同款球鞋体验科比的一天科比头像
科比8球鞋评测巅峰科比实力到底有多强?科比永远的MVP

案例实践

某文娱资讯平台,原自建搜索存在搜不准,跳出率较高等问题,直接影响用户体验和用户粘性。通过接入开放搜索OpenSearch 15天快速实现搜索效果各项指标的提升。

  1. PV-CTR提升超过10%,UV-CTR提升超过5%,有点击PV占比提升超过5%
  2. 具备语义向量模型能力,针对长文本复杂关键词也可准确返回语义相关文档
  3. 个性化排序模型,支持千人千面的搜索结果展示

原文链接

本文为阿里云原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/510403.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

离散对数(例题+详解+代码模板)

题意: 给定x,n,m,求x^yn(mod m)的解(其中m是素数) 求解一个最小的x满足给定的方程Bx N (mod P) 使用baby_step_giant_step算法。也就是先小步后大步算法。 1、令xi*mj (mceil(sqrt(p))), 那么原式化为 B^(i*m)*B^jN(MOD P) B^jN*B^(-i*m)(MOD P)-----…

N次剩余(详解+例题+代码)

从《国际大学生程序设计大赛算法与实现》中所学 任务: 给定N, a, p, 求出(x^N)%pa 在模p意义下的所有解x。 说明: 令g为p的原根,因为p为素数,所以phi(p)p-1。 由原根的性质得: 如果g为p的原根,则&#xff1…

一文搞懂 SAE 日志采集架构

日志,对于一个程序的重要程度不言而喻。无论是作为排查问题的手段,记录关键节点信息,或者是预警,配置监控大盘等等,都扮演着至关重要的角色。是每一类,甚至每一个应用程序都需要记录和查看的重要内容。而在…

无需编写一行代码,实现任何方法的流量防护能力

背景 微服务的稳定性一直是开发者非常关注的话题。随着业务从单体架构向分布式架构演进以及部署方式的变化,服务之间的依赖关系变得越来越复杂,业务系统也面临着巨大的高可用挑战。疫情期间,大家可能都经历过以下的场景: 线上预…

素数筛选法(模板)

#include <stdio.h> #include <string.h> #include <math.h>#define MAX 1000000int is_prime[MAX5] {1}; //is_prime[i]是素数为1&#xff0c;不是素数为0 int prime_num[MAX]; //prime_num[i]是第i个素数int main() {int len 0;//memset(is_prime, …

使用日志上下文聚合插件使能上下文查询及 Livetail

背景 在排查业务故障时&#xff0c;用户往往需要查看业务日志文件来定位问题。然而&#xff0c;当用户在使用SLS收集业务日志时&#xff0c;同一个Logstore中往往存放着不同的日志&#xff08;例如同一台主机上不同目录下的文件&#xff0c;抑或是同一个K8S集群节点上不同容器…

Koordinator v0.7: 为任务调度领域注入新活力

Koordinator[1]继上次v0.6版本[2]发布后&#xff0c;经过 Koordinator 社区的努力&#xff0c;我们迎来了具有重大意义的 v0.7 版本。在这个版本中着重建设了机器学习、大数据场景需要的任务调度能力&#xff0c;例如 Coscheduling、ElasticQuota 和精细化的 GPU 共享调度能力。…

初学ACM之路(训练大纲)

初期: 一.基本算法: (1)枚举. (poj1753,poj2965) (2)贪心(poj1328,poj2109,poj2586) (3)递归和分治法. (4)递推. (5)构造法.(poj3295) (6)模拟法.(poj1068,poj2632,poj1573,poj2993,poj2996) 二.图算法: (1)图的深度优先遍历和广度优先遍历. (2)最短路径算法(dijkstra,bellma…

聊聊日志硬扫描,阿里 Log Scan 的设计与实践

日志 Scan 的发展与背景 大数据快速增长的需要 泛日志&#xff08;Log/Trace/Metric&#xff09;是大数据的重要组成&#xff0c;伴随着每一年业务峰值的新脉冲&#xff0c;日志数据量在快速增长。同时&#xff0c;业务数字化运营、软件可观测性等浪潮又在对日志的存储、计算…

注册配置、微服务治理、云原生网关三箭齐发,阿里云 MSE 持续升级

背景 注册中心是日常使用频率很高的微服务组件&#xff0c;通过较低的资源溢价帮助客户缩短微服务的构建周期、提升可用性&#xff1b;微服务治理实现了 0 门槛就能接入全链路灰度、无损上下线、限流降级、环境隔离、数据库治理等能力&#xff0c;轻松完成开源到稳定生产的跨越…

新零售标杆 SKG 全面拥抱 Serverless,实现敏捷交付

项目背景 SKG 公司是一家专注于高端健康产品的研发、设计与制造的企业。专注为消费者提供精致、时尚的高端产品&#xff0c;以及极致的按摩仪产品体验。 随着市场需求的迅速变化&#xff0c;SKG 的 IT 系统也逐渐面临着库存不准确、线上线下渠道无法协同、部署架构不灵活、IT…

Mobius函数计算 定义+代码模板

Mobius函数定义为&#xff0c;输入一个正整数N&#xff0c;当N1时&#xff0c;函数值为1&#xff0c;当N不为1时&#xff0c;首先在稿纸上将它分解质因数&#xff0c;若某质因数的个数大于1&#xff0c;则函数值为0&#xff0c;如N45&#xff0c;453*3*5,3出现了两次&#xff0…

不仅有0.0075元的深度冷归档,更有对下一代云存储的重新定义

前言&#xff1a;重新定义下一代云存储&#xff0c;需要继续保障稳定、安全、可靠和低成本&#xff0c;进一步演进 Serverless 能力&#xff0c;智能适配负载变化&#xff0c;提供智能数据管理能力以及全场景覆盖不断发展的新负载。 阿里云存储的创新活力&#xff0c;不仅拓展了…

一图看懂镜像

原文链接 本文为阿里云原创内容&#xff0c;未经允许不得转载。

数值方法求积分 详解+模板代码

什么是数值积分 数值积分可以用来求定积分的近似值。对于很多函数来说&#xff0c;我们是可以使用初等函数来表示出其积分的&#xff0c;对于这种函数&#xff0c;只需要求出不定积分然后代入值就能得到定积分了。 可是除此之外还有许多难求的函数和没法使用初等函数表示的函数…

用积木讲运维,这样的IT人太会了

积木的拼搭&#xff0c;是件细致工作。用不同的积木&#xff0c;进行组合变换&#xff0c;小孩子可能会用积木搭高楼、搭汽车、搭公路&#xff0c;而IT人则选择通过搭建小积木&#xff0c;讲解可观测的大乾坤。 大家所熟知的日志服务SLS不只是“日志存储”&#xff0c;更是一个…

再谈数据湖3.0:降本增效背后的创新原动力

前言&#xff1a;2022年3月 31 日&#xff0c;阿里云全球数据湖峰会上&#xff0c;阿里云从“湖管理、湖存储和湖计算“这三个方面&#xff0c;为观众带来了“数据湖 3.0” 的重磅升级方案。在时隔两百多天的云栖大会上&#xff0c;阿里云存储对数据湖的能力&#xff0c;进行了…

原码 反码 补码 详解

一. 机器数和真值 在学习原码, 反码和补码之前, 需要先了解机器数和真值的概念. 1、机器数 一个数在计算机中的二进制表示形式, 叫做这个数的机器数。机器数是带符号的&#xff0c;在计算机用一个数的最高位存放符号, 正数为0, 负数为1. 比如&#xff0c;十进制中的数 3 &…

谈谈 PolarDB-X 在读写分离场景的实践

在数据库使用过程中经常会遇到一些场景&#xff1a; 业务写流量一直相对比较稳定&#xff0c;但随着时间&#xff0c;数据不断增加&#xff0c;数据库的压力也会越来越大&#xff0c;写操作会影响到读请求的性能&#xff0c;做任何优化可能都达不到最终的效果&#xff1b;在应…

开源数据库 PolarDB 为什么能捕获娃哈哈的心?

一、娃哈哈的需求 娃哈哈已经使用PostgreSQL多年&#xff0c;使用了大量逻辑复制&#xff0c;且备库仅提供一些业务的只读服务。同时&#xff0c;其重要业务的数据库运行在共享SAN存储上。因此&#xff0c;它存在主备库延迟较大、逻辑复制不稳定且延迟大的痛点。 二、使用Pola…