内容社区行业搜索最佳实践

简介:社区内容通常包括UGC和PGC。由于关键词和内容多样性丰富、用词规范程度参差不齐,搜索引擎需要对关键词和内容进行智能语义分析,识别出用户真正的查询意图,找到最全面最相关的结果满足用户需求。本文将详细介绍如何通过“开放搜索(OpenSearch)内容增强版”在社区论坛场景的应用,提升用户搜索体验,带来更多的业务转化

社区的核心是用户,用户进入社区的主要目的是为了消费内容。内容可以是广义的图文、音频、视频,也可以是通过社区找到解决问题的方法。优质的内容能提升用户的活跃度,为平台带来流量与时长,实现用户增长和留存,获得更多业务机会和收益。

"搜索"作为社区直接获取内容的最有效途径,每个社区都在不断解决下面的搜索效果问题:

  • 如何准确理解用户的搜索意图,返回最匹配的结果?
  • 如何通过内容传播的差异化,个性化来提升用户的搜索体验,增强社区归属感和忠诚度?
  • 如何在社区里不同领域,不同垂类,不同频道间的内容召回中实现交互和连接?
  • 如何实现非商业化内容与商业化内容更好的融合与发展?

本文将带着以上几个思考,为大家解析内容社区行业搜索特点和挑战,以及介绍阿里云智能开放搜索-内容社区行业增强版的解决方案和应用实践。

内容行业搜索业务需求

» 更多的曝光机会——无结果率低;
» 更好的搜索质量——搜索相关性高,更高质量的排序;
» 更丰富的业务特征——结合业务特性调整搜索结果;
» 更全面的配套功能——智能纠错、热搜、底纹、下拉提示等配套能力;
» 更低的拥有成本——相较自建搜索引擎更低的开发、资源、运维成本;
» 更便捷的开发使用——上线周期短,降低搜索引擎开发、效果调优难度;

» 用户搜索意图指向性强——主搜聚集多个频道内容,搜索结果相关性要求更加精准;

以某论坛社区为例,产品线覆盖多个平台,包含网页、APP、小程序等形式,同时业务上区分多个频道。随着业务的发展,首页综合搜索(后简称“主搜”)的流量越来越大,各种付费、引流业务接入,对搜索流量的运营变得更加重要,对主搜的业务诉求越来越多,需要聚合多个频道的内容,同时搜索结果相关性要求更加精准,在考虑文本相关性的前提下,要加入更多的商业因素考虑。
成熟的搜索引擎涉及离线模块、在线模块、查询理解服务、算法平台等系统,所需大量开发、算法调优以及持续的复杂运维工作,由于人力有限,自建搜索系统很难满足业务需求。

常见搜索业务场景

文章搜索

  • 博文、问答、心得分享等内容搜索
  • 精品内容、热帖发现
  • 付费资源引流
  • 标签分类过滤、筛选

(配图来自阿里云开发者社区)

话题搜索

  • 热门活动、话题互动
  • PGC、UGC
  • 热搜、底纹、下拉提示等搜索引导
  • 个性化、时效性

(配图来自阿里云开发者社区)

开放搜索内容社区增强版

方案架构

功能介绍

内容行业增强版基于阿里巴巴最新算法功能,贴合不同垂类内容搜索场景的痛点和需求,提供了内容行业专属的智能语义理解能力、向量召回、排序算法,为内容行业的搜索性能和效果准确性提供双重保障,并有效的解决了超大词库数据导致的搜索延迟高、资源消耗大、搜索无结果率高等行业重难点问题。针对内容行业,开放搜索还提供了向量模型,以实现向量召回及多路搜索,提高查询准确率,并提供多模态搜索解决方案。

通用版VS内容行业增强版

  1. 功能差异

  1. 查询分析效果对比

行业增强版较通用版相比在查询分析功能上做出了更深入的优化,不仅在通用版的基础上更新了常见bad case,而且针对内容行业集各家之所长,丰富已有词库。

  • 分词:(以空格分词)

  • 拼写纠错

内容行业向量召回

针对内容行业的垂类行业数据分布提供高质量的向量召回模型,保证长尾query,包含错别字query,依赖同义词改写召回query的召回效果

  • 向量召回

CTR预估模型-个性化搜索效果

  1. 基于Seq行为建模,实现个性化搜索

例如:用户连续搜索:“面试”,“Java”两个词和用户只搜索“Java”的结果是有差异的,实现个性化召回,针对性满足不同用户的搜索需求,提示用户搜索体验。

  1. 深度排序模型DeepRanking

模型参数规模可以达到1000亿级别,保障更优搜索效果,且模型训练、使用成本低,远低于自研人力+机器+研发支持所用成本。

  1. 深度召回模型集合阿里云达摩院的NLP能力,提升搜索效果,降低无结果率

针对用户和数据特点,结合阿里巴巴长期技术积累,深度定制模型结构,做到Make for you的特有深度模型结构。

增强版接入流程

轻松接入,快速上手,一键式接入行业模板,可根据自身业务自定义选择功能,并满足非技术人员业务干预调优与数字化运营需求; 点击体验交互式demo

表结构设计

详情可参考应用结构--->创建多表join。

数据接入

开放搜索支持用户通过数据源将数据接入搜索,也支持无数据源,通过API/SDK/控制台上传文件的方式导入数据详情如下:

  1. RDS数据源配置
  2. MaxCompute(原ODPS)数据源配置
  3. POLARDB数据源配置
  4. API/SDK数据导入

内容社区行业模板配置

功能选择,垂类选择“IT”行业为例,模板功能可自行勾选(默认全选)

其中模板功能包括:查询分析(IT词权重、IT同义词包、文本向量化等)、排序策略(多路搜索、文本相关性、向量相关性)、下拉提示。

搜索测试

  1. 如需使用“IT向量索引”搜索,需要先配置查询分析-文本向量化功能,并添加对应的IT向量索引

  2. 在搜索测试中进行测试:

效果定制服务

如果有深度召回、排序效果调优、个性化搜索需求,开放搜索团队专家支持效果定制服务,可填写咨询问卷:阿里云登录 - 欢迎登录阿里云,安全稳定的云计算服务平台

案例实践

某技术社区作为中文IT内容社区,致力于为中国软件开发者提供知识传播、在线学习、职业发展等全生命周期服务,旗下包括多款产品。

自开始接触阿里云开放搜索产品,在一年的时间里陆续接入PC端、移动端的多个平台,覆盖首页搜索、博客、下载、问答等细分业务的频道搜索。通过开放搜索,为旗下产品的用户提供高质量的搜索服务,并通过搜索能力的优化带来更多的业务转化,提升整体业务收入。

  • 对比基于开源自建的服务CTR提升超过80%
  • 后续算法专家通过深度定制模型不断帮客户调优,每曝光用户带来点击次数提升16.7%,Item-CTR提升11.8%,效果还在持续提升中;

原文链接

本文为阿里云原创内容,未经允许不得转载。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/510944.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

手把手,带你用数据做好迭代复盘改进 | 敏捷开发落地指南

简介:高效落地敏捷开发,先从这3个关键活动着手。带你用数据做好迭代复盘改进 ,数据说话,借助云效项目协作Projex 高效开展迭代复盘高效落地敏捷开发。 摘要:高效落地敏捷开发,先从这3个关键活动着手&#…

记一次网络相关的技术问题答疑

大家好,我是飞哥!前段时间飞哥参加了一期 OSChina 官方举办的「高手问答」栏目。在这个栏目里,我和 OSChina 的网友们以《深入理解 Linux 网络》为主题,对大家日常所关心的一些问题展开了一些技术探讨。今天我把这个活动中探讨的内…

Hexo博客框架—轻量、一令部署

简介:Hexo 是一个快速、简洁且高效的博客框架。Hexo 使用 Markdown(或其他渲染引擎)解析文章,在几秒内,即可利用靓丽的主题生成静态网页。Hexo支持Github Flavored Markdown的所有功能, 甚至可以整合Octopress的大多数…

被你质疑价值的混沌工程,阿里巴巴已落地实践了9年

简介:无可讳言,对于混沌工程的价值,目前在业内还没有一个明确的度量标准,但是可以通过简单的例子来有效佐证。据中亭介绍,一方面可以先选定一个场景,从结果上看,混沌工程可以保证场景不劣化&…

同为博客,不同风格 ——Hexo另类搭建

简介:通过阿里云云开发平台快速由Hexo创建赛博朋克风格的博客。 一 、通过云开发平台快速创建初始化应用 1.创建相关应用模版请参考链接:Hexo博客框架—轻量、一令部署 2.完成创建后就可以在github中查看到新增的Hexo仓库 二 、 本地编写《赛博朋克风…

即学即会 Serverless | 初识 Serverless

简介:Serverless 架构被越来越多的业务所采纳,成为其技术选型,大多数开发者已经跨越对 Serverless 概念了解,切实向落地实践出发。本文带大家一探究竟,为什么说 Serverless 可以帮助开发者聚焦核心业务价值&#xff0c…

宜搭小技巧|巧用审批按钮,流程随心流转

简介:一键启用流程退回,再也不用担心“一错回到提交前”! 今天,宜小搭提交了产品采购申请单,却因某项产品选错分类被领导拒绝,宜小搭只能重新填写再提交,这样做既麻烦也影响工作效率。 流程已…

阿里云将投入70亿元建国际生态、增设6大海外服务中心

9月22日消息,阿里云在泰国举办的国际云峰会上宣布将继续加快海外市场布局,未来三年投入70亿元建设国际本地化生态,并在海外增设6个服务中心,分别位于波尔图、墨西哥城、吉隆坡、迪拜等地。近年来,阿里云在海外市场获得…

开源|优酷动态模板研发体系为分发提效30%

简介:动态模板技术方案将客户端研发链路实现了串联,通过完备的工具化支撑体系,让开发者可以高效完成组件由原始设计稿到可运行代码的最短通路,本文将对研发体系中涉及到的核心模块就行介绍,希望对技术社区及广大开发者…

比心云平台基于阿里云容器服务 ACK 的弹性架构实践

简介:本文主要探讨比心云平台如何利用阿里云容器服务 ACK,来构建应用弹性架构,进一步优化计算成本。 作者:韩韬|比心技术 前言 应用容器化改造后,不可避免地会面临这样一个问题:Kubernetes 集…

程序员莫名收到谷歌转账170万元,直言:一个月没敢花

整理 | 朱珂欣 出品 | CSDN程序人生(ID:coder_life)近日,Google 公司发生一起乌龙事件, 意外地给一位博客和安全工程师转账近25万美元(约合人民币174万元),当事人表示等待将近一个月…

利器解读:Linux 内核调测中最最让开发者头疼的 bug 有解了|龙蜥技术

简介:通过在Anolis 5.10 内核中增强 kfence 的功能,实现了一个线上的、精准的、可定制的内存调试解决方案。 编者按:一直持续存在内核内存调测领域两大行业难题: "内存被改" 和 "内存泄漏"何解?本文整理自龙…

无需修改代码,用 fcapp.run 运行你的 REST 应用

简介:解锁客户不修改代码部署存量REST、网页应用场景,解决客户函数调用返回404问题,支持标准的网关产品与开源组件集成函数计算。 作者 | 阿里云 Serverless 技术研发 落语 背景 阿里云函数计算产品在较早的时候支持了HTTP触发器能力&…

在 Linux 中锁定和解锁用户的 3 种方法

在多用户操作的服务器中锁定(禁用)用户可能有多种原因,比如某个用户的登录密码被泄露,或者某个用户离职,但是该用户下还有部分文档未完成转移,而因为归档的目的暂时不删除该用户,而只是锁定等等…

中小企业掀起“减碳潮”,“上云”提高产品绿色竞争力

中小企业节能减碳需求正进入爆发期。4月22日世界地球日,近2000家中小企业已接入阿里云碳排放优化核算平台“能耗宝”,通过光伏装机和算法优化全年节省4.3亿度煤电,相当于减少44万吨碳排放。其中,浙江、广东及江苏的中小企业走在减…

函数计算 HTTP 触发器支持异步,解放双手搭建 Web 服务

简介:函数计算 HTTP 触发器支持异步调用,为用户搭建 WEB 服务使用函数计算作为全托管平台打通了最后一公里,以后 HTTP 触发器的使用者,也可以感受到异步调用”开箱即用“的便捷体验。 作者| 阿里云Serverless技术专家 澈尔 当前…

如何做好“防御性编码”?

简介:类似于“防御性驾驶”对驾驶安全的重要性,防御性编码目的概括起来就一条:将代码质量问题消灭于萌芽。要做到“防御性编码”,就要求我们充分认识到代码质量的严肃性,也就是“一旦你觉得这个地方可能出问题&#xf…

消息队列Kafka「检索组件」上线

简介:本文对消息队列 Kafka「检索组件」进行详细介绍,首先通过对消息队列使用过程中的痛点问题进行介绍,然后针对痛点问题提出相应的解决办法,并对关键技术技术进行解读,旨在帮助大家对消息队列 Kafka「检索组件」的特…

从这些云原生企业身上,我看到了数字化创新者该有的样子

简介:未来的数字世界是什么样子?手握云原生地图的企业,又将如何颠覆数字化?带着这些疑问,我们采访了教育、金融、新零售、互娱、传媒等领域的多位大咖,他们是数字创新的引领者,也是用云原生技术…

云采销:赋能企业商机转化及营销全流程数字化

简介:介绍云采销-企采商产品的在企业业务中的应用场景和产品功能。 云采销:为企业提供“采购协同工具市场资源数据增值服务”的综合性解决方案。 其中“企采商营销管理工作台”为企业提供了B2B营销全域管理系统,包括商机挖掘、线上推广、销…