文娱行业搜索最佳实践

内容搜索的价值主要体现在两个方面:

对用户而言,用户将搜索作为寻找内容的工具,目标是“搜的到,搜的准”。用户更关心搜索结果的相关性、时效性和多样性。

对平台而言,搜索是内容消费、流量引导的核心入口,目标是提升用户满意度与留存率。更进一步,搜索还能支持平台的宣发和商业价值,实现业务增长与流量变现。

常见文娱搜索场景

  1. 新闻、资讯搜索
  2. 社区、论坛、话题搜索
  3. 影音娱乐搜索
  4. 在线阅读小说、网漫、文章搜索
  5. 图像、视频搜索

文娱搜索业务特点

  • 搜索效果需保证时效性和个性化
  • 涉及多频道、多类别,内容覆盖广泛,需要精准理解用户搜索意图
  • 热搜、下拉提示等搜索引导功能流量占比高
  • 可能有文字、语音、图像、视频综合的多模态搜索需求

搜索痛点

  1. 用户用词规范程度参差不齐,文本内容复杂,用户意图理解要求高
  2. 内容垂类特殊,需要行业数据积累,分词和查询分析难度大
  3. 千人千面的的个性化搜索,需要5人以上的算法团队持续投入,成本高,周期长
  4. 业务导向性差,无法通过搜索实现付费内容引导

开放搜索内容文娱增强版解决方案

内容文娱行业分词模型

对于内容文娱行业,OpenSearch汇集多个相关数据来源,利用千万级数据训练了行业增强版分词模型。

针对更加特殊的垂类业务场景,在原有分词算法模型基础上,支持基于业务数据的定制分词模型,提供专属文本分词器。

文本通用版内容文娱版
拜仁或将签下凯恩以接替莱万拜仁 或 将 签 下 凯恩 以 接替 莱 万拜仁 或 将 签 下 凯恩 以 接替 莱万
夜兰配队夜 兰 配 队夜兰 配 队
复联4高燃场面复 联 4 高燃 场面复联 4 高燃 场面
彭昱畅和江疏影演情侣彭昱 畅和 江疏影 演 情侣彭 昱畅 和 江 疏影 演 情侣

内容文娱行业向量模型

相比传统文本搜索通过分词、同义词、纠错、词权重等算法技术增强语义搜索效果,基于深度学习的语义向量召回模型具备更强大的表征能力,可以更好地处理用户查询词中的简写、别名、拼写错误等情况。

开放搜索OpenSearch和阿里达摩院合作自研的向量召回技术,在业界知名榜单MS MARCO上夺冠。

结合文娱行业数据训练的向量召回模型目前已在OpenSearch对客户透出。

query詹姆士绝杀
向量召回 TOP 1詹姆斯绝杀
向量召回 TOP 2詹姆斯不是绝杀?
向量召回 TOP 3关于詹姆斯绝杀球
query佐鸣
向量召回 TOP 1鸣佐结局
向量召回 TOP 2鸣人喜欢佐助哪点
向量召回 TOP 3鸣人和佐助谁更强?

内容文娱行业CTR排序模型

针对内容文娱行业往往个性化诉求和实时性需求较高。比如不同用户兴趣爱好的引导、以及当天的热点事件引导。

CTR预估模型充分结合行业特点,保障搜索个性化建模和内容实时性。整体网络框架如下:

CTR预估模型可以根据客户特点和诉求做对应模型定制和链路定制,以达到更优业务转化效果。

球鞋爱好者搜:科比粉丝搜:科比8.24当天搜:科比
科比那些年穿过的球鞋科比10佳投篮精彩瞬间球迷致敬科比
科比同款球鞋体验科比的一天科比头像
科比8球鞋评测巅峰科比实力到底有多强?科比永远的MVP

案例实践

某文娱资讯平台,原自建搜索存在搜不准,跳出率较高等问题,直接影响用户体验和用户粘性。通过接入开放搜索OpenSearch 15天快速实现搜索效果各项指标的提升。

  1. PV-CTR提升超过10%,UV-CTR提升超过5%,有点击PV占比提升超过5%
  2. 具备语义向量模型能力,针对长文本复杂关键词也可准确返回语义相关文档
  3. 个性化排序模型,支持千人千面的搜索结果展示

原文链接

本文为阿里云原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/510403.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

一文搞懂 SAE 日志采集架构

日志,对于一个程序的重要程度不言而喻。无论是作为排查问题的手段,记录关键节点信息,或者是预警,配置监控大盘等等,都扮演着至关重要的角色。是每一类,甚至每一个应用程序都需要记录和查看的重要内容。而在…

无需编写一行代码,实现任何方法的流量防护能力

背景 微服务的稳定性一直是开发者非常关注的话题。随着业务从单体架构向分布式架构演进以及部署方式的变化,服务之间的依赖关系变得越来越复杂,业务系统也面临着巨大的高可用挑战。疫情期间,大家可能都经历过以下的场景: 线上预…

使用日志上下文聚合插件使能上下文查询及 Livetail

背景 在排查业务故障时,用户往往需要查看业务日志文件来定位问题。然而,当用户在使用SLS收集业务日志时,同一个Logstore中往往存放着不同的日志(例如同一台主机上不同目录下的文件,抑或是同一个K8S集群节点上不同容器…

Koordinator v0.7: 为任务调度领域注入新活力

Koordinator[1]继上次v0.6版本[2]发布后,经过 Koordinator 社区的努力,我们迎来了具有重大意义的 v0.7 版本。在这个版本中着重建设了机器学习、大数据场景需要的任务调度能力,例如 Coscheduling、ElasticQuota 和精细化的 GPU 共享调度能力。…

聊聊日志硬扫描,阿里 Log Scan 的设计与实践

日志 Scan 的发展与背景 大数据快速增长的需要 泛日志(Log/Trace/Metric)是大数据的重要组成,伴随着每一年业务峰值的新脉冲,日志数据量在快速增长。同时,业务数字化运营、软件可观测性等浪潮又在对日志的存储、计算…

注册配置、微服务治理、云原生网关三箭齐发,阿里云 MSE 持续升级

背景 注册中心是日常使用频率很高的微服务组件,通过较低的资源溢价帮助客户缩短微服务的构建周期、提升可用性;微服务治理实现了 0 门槛就能接入全链路灰度、无损上下线、限流降级、环境隔离、数据库治理等能力,轻松完成开源到稳定生产的跨越…

新零售标杆 SKG 全面拥抱 Serverless,实现敏捷交付

项目背景 SKG 公司是一家专注于高端健康产品的研发、设计与制造的企业。专注为消费者提供精致、时尚的高端产品,以及极致的按摩仪产品体验。 随着市场需求的迅速变化,SKG 的 IT 系统也逐渐面临着库存不准确、线上线下渠道无法协同、部署架构不灵活、IT…

Mobius函数计算 定义+代码模板

Mobius函数定义为,输入一个正整数N,当N1时,函数值为1,当N不为1时,首先在稿纸上将它分解质因数,若某质因数的个数大于1,则函数值为0,如N45,453*3*5,3出现了两次&#xff0…

不仅有0.0075元的深度冷归档,更有对下一代云存储的重新定义

前言:重新定义下一代云存储,需要继续保障稳定、安全、可靠和低成本,进一步演进 Serverless 能力,智能适配负载变化,提供智能数据管理能力以及全场景覆盖不断发展的新负载。 阿里云存储的创新活力,不仅拓展了…

一图看懂镜像

原文链接 本文为阿里云原创内容,未经允许不得转载。

数值方法求积分 详解+模板代码

什么是数值积分 数值积分可以用来求定积分的近似值。对于很多函数来说,我们是可以使用初等函数来表示出其积分的,对于这种函数,只需要求出不定积分然后代入值就能得到定积分了。 可是除此之外还有许多难求的函数和没法使用初等函数表示的函数…

用积木讲运维,这样的IT人太会了

积木的拼搭,是件细致工作。用不同的积木,进行组合变换,小孩子可能会用积木搭高楼、搭汽车、搭公路,而IT人则选择通过搭建小积木,讲解可观测的大乾坤。 大家所熟知的日志服务SLS不只是“日志存储”,更是一个…

再谈数据湖3.0:降本增效背后的创新原动力

前言:2022年3月 31 日,阿里云全球数据湖峰会上,阿里云从“湖管理、湖存储和湖计算“这三个方面,为观众带来了“数据湖 3.0” 的重磅升级方案。在时隔两百多天的云栖大会上,阿里云存储对数据湖的能力,进行了…

原码 反码 补码 详解

一. 机器数和真值 在学习原码, 反码和补码之前, 需要先了解机器数和真值的概念. 1、机器数 一个数在计算机中的二进制表示形式, 叫做这个数的机器数。机器数是带符号的,在计算机用一个数的最高位存放符号, 正数为0, 负数为1. 比如,十进制中的数 3 &…

谈谈 PolarDB-X 在读写分离场景的实践

在数据库使用过程中经常会遇到一些场景: 业务写流量一直相对比较稳定,但随着时间,数据不断增加,数据库的压力也会越来越大,写操作会影响到读请求的性能,做任何优化可能都达不到最终的效果;在应…

开源数据库 PolarDB 为什么能捕获娃哈哈的心?

一、娃哈哈的需求 娃哈哈已经使用PostgreSQL多年,使用了大量逻辑复制,且备库仅提供一些业务的只读服务。同时,其重要业务的数据库运行在共享SAN存储上。因此,它存在主备库延迟较大、逻辑复制不稳定且延迟大的痛点。 二、使用Pola…

数据库 PolarDB 开源之路该如何走?听听他们怎么说

阿里巴巴集团副总裁、阿里云数据库事业部负责人李飞飞出席了沙龙并致开场辞:PolarDB 是阿里云的明星产品,做出将PolarDB 开源的决策需要非常大的勇气。将最核心的数据库产品对外开源,且使用了最友好的协议,阿里云是全球头部云厂商…

通过定时 SQL 提取阿里云API 网关访问日志指标

背景 阿里云API网关服务提供API托管服务,提供了强大的适配和集成能力,可以将各种不同的业务系统API实现统一管理。API网关同时支持将API访问日志一键存储到日志服务,通过日志服务强大的查询分析能力,用户可以针对访问日志自定义计…

2022云栖现场|体验阿里巴巴工作数字化实践

越来越多的企业主动拥抱数字化转型,借助数字化工具提高企业运营效率,实现企业目标落地、帮助员工成长。 2022云栖大会,阿里巴巴企业智能带来阿里数字化工作方法与企业IT解决方案,展示着阿里内部在办公协同与IT管理上的实际应用场…

K8s 场景下 Logtail 组件可观测方案升级-Logtail 事件监控发布

背景 随着K8s和云的普及,越来越多的公司将业务系统部署到云上,并且使用K8s来部署应用。Logtail是SLS提供的日志采集Agent,能够非常好的适应K8s下各种场景的日志采集,支持通过DaemonSet方式和Sidecar方式采集Kubernetes集群的容器…