智能开放搜索上线定制分词器

简介:智能开放搜索上线定制召回模型-定制分词器功能,满足各行业、垂类、业务特殊,对搜索有较高分词要求的客户,提升语义理解能力,精准召回用户搜索意图。

NLP算法在搜索链路中的应用

这是一个完整的从查询词到搜索结果的链路,其中自然语言处理(NLP)算法发挥作用的地方主要在第二阶段的查询分析,该阶段包含多个NLP算法模块,如分词、纠错、实体识别、词权重、同义词以及语义向量等。开放搜索结合了文本和语义向量实现多路召回,从而满足不同业务场景的搜索效果需求。

查询分析

NLP算法可以在这几个子模块发挥作用:

  • 分词,精准的分词能提高检索效率,让召回结果更加精准。
  • 拼写纠错,对用户输入query中出现的拼写错误进行自动纠错,提升用户搜索体验。
  • 实体识别,为query 中的每个词打上对应的实体标签,从而为后续的query改写和排序提供关键特征。
  • 词权重,会对每个词划分不同的权重,在查询结果时去做丢词的重查,提升搜索准确率并降低无结果率。
  • 同义词,扩展出相同、相近意思的词来扩大召回范围。
  • 最后,经过完整的查询分析模块之后,进行整体的query改写,将用户输入query转换成向量和查询串,到相应搜索引擎中进行查询。

自研NLP模型难点

自建模型领域适配难

  • 自研搜索在具体场景业务中效果差强人意

例如:开源IK分词VS电商行业增强版

公开行业模型少

  • 云服务产商基本只提供通用模型,公开行业数据集也主要覆盖通用领域

自主参与领域模型优化难度大

  • 构建一个行业搜索NLP模型主要包含一下流程:

  1. 首先是标注数据集,这一步对于行业知识的要求非常高,同时数据量也至少需要达到万级别,标注这些数据的耗时可能长达数月
  2. 接着是模型训练,这一步需要专业的算法从业人员进行开发调试,如果对算法不熟悉,将大幅降低模型效果与迭代效率。
  3. 最后是模型上线,这一步需要工程、算法人员共同部署运维,如果涉及到深度模型,还需进行工程性能相关的效率优化。

从零开始自主开发行业模型困难重重,在数据集标注阶段其实就已经存在了很多的挑战:

  • 标注难点
  1. 分词标注领域知识要求高,交叉歧义判断难;

例如:药物的名称:利多卡因氯己定气雾剂 | 利多卡因 氯己定 气雾剂

          地址:南召县四棵树乡王营村 | 南召 县 四棵树 乡 王营 村

          洗衣服粉 | 洗衣  服  粉b

  1. 实体识别标注领域知识要求高;

例如:澳洲爱他美(母婴品牌)金装一段、科比(球鞋系列

          pytorch实现GAN(算法模型

针对分词、查询分析模型影响搜索效果,行业模型训练开发难度大等问题,开放搜索提供了轻量化客户定制解决方案:

开放搜索轻量化客户定制解决方案

方案效果介绍及选型

搜索召回和相关性排序在实际应用中最突出的问题之一就是NLP任务的领域适配问题。上图为开放搜索根据不同业务痛点和诉求提供的解决思路及对应效果分数参考;(上面提到的分数不是严格的技术指标)

  1. 直接使用通用模型大概能达到60分的效果;
  2. 开放搜索产品结合阿里经济体内数据资源积累,提供开箱即用的行业模型(电商、内容、教育、游戏、互娱等)对客户场景具备不错的适用性,可以达到80分的效果;
  3. 当客户有针对性优化,团队资源充足情况下,可以自主定制,进行领域模型优化,但NLP任务的标注门槛相对较高,标注质量不可控,模型训练难度大、周期长,很难突破85分;
  4. 轻量化客户定制可以减少客户标注量级,实现完全无标注或少量简单标注。同时基于行业、垂类、业务的特殊数据,结合原有成熟的NLP模型,让定制与扩展更简单,从而直接达到85分效果;

轻量化客户定制召回模型-定制分词器

分词是搜索引擎的重要基础组件,分词效果会直接影响搜索召回和最终结果。由于业务场景的多样性,不同行业、垂类、业务都有各自的特殊性通用、开源的分词器很难满足具体到每个客户的分词要求。

阿里云智能开放搜索(OpenSearch)提供了丰富的行业分析器,基于对应的行业分析器,经过简单的配置、训练,得到业务专属的定制分析器。整个定制过程无需进行额外的数据对接工作,召回定制模型训练会自动抽取已有数据进行适配。

通过定制召回模型-业务定制分析器功能,客户可以基于预训练行业NLP模型和自身业务数据,定制专属分析器,减小特殊行业、垂类、业务分词场景下的bad case,无需进行数据标注,实现一站式搜索引擎开发与NLP模型定制,智能化提升搜索效果。

适用客户

  1. 搜索为核心业务重要场景,对搜索有更高效果要求的客户
  2. 行业、垂类、业务特殊,有较多专属名词的客户
  3. 搜索投入人力有限,算法同学相对较少的客户

开放搜索后续还会上线更多定制召回模型,例如:定制拼写纠错、定制同义词等,敬请期待~

效果对比

  1. 电商社区场景

智能开放搜索(OpenSearch)提供的电商行业模型虽然已经能正确处理大部分的case,但仍存在一些切错的情况。结合客户数据,基于电商行业模型训练定制分词模型后,badcase基本都被修复。

  1. 地址场景

产品目前虽然还未开放地址行业模型,通用模型对于一些语义歧义多的case处理不好,但是结合客户数据,基于通用模型训练定制分词模型后,也可以修复大部分badcase。

小结:

  • 如果您的业务目前正在或准备使用开放搜索(OpenSearch)的行业版,可以在行业模型的基础上进行定制分词模型的训练;
  • 如果开放搜索还没有提供与您业务接近的行业版,建议选择在通用版模型的基础上进行定制,这种情况需要数据尽量多,分布尽量全面均衡,有助于提升定制分词模型的效果。

模型接入流程

  1. 创建并训练模型
  • 创建模型,训练模型

其中基础分析器包括:中文-通用分析、中文-电商分析、IT内容分析、行业-游戏通用分析,行业-教育搜题、行业-内容IT分析、行业-电商通用分析

  1. 创建自定义分析器(可选)
  • 在搜索算法中心>分析器管理页面,选择文本分析器创建,选择分析器类型为定制模型分析

  • 创建完成后,可使用定制自定义分析器进行分词测试,以及词条管理等功能:

  1. 配置定制分析器模型
  • 定制分析器创建完成后,即可通过线下变更将已配置定制召回模型的定制化分析器应用到索引中;
  • 在配置索引结构页面,找到对应的索引,替换成已配置定制召回模型的定制化分析器,并选择需要生效的模型版本;

  • 索引重建结束,即可在搜索测试界面测试效果;

原文链接

本文为阿里云原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/510963.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

云端渲染时长1.58亿核小时,阿里云助力国漫巨制《新神榜:杨戬》提升视效

当前,追光动画新作《新神榜:杨戬》(以下简称“杨戬”)正在热映,制作水准再次升级。无论是“水墨特效太极图大战”,亦或神女婉罗的灵动舞姿,还是元神现身的超燃瞬间,都极具视觉震撼。…

如何开一场高效的迭代排期会 | 敏捷开发落地指南

简介:如何开一场高效的迭代排期会,高效落地敏捷开发,先从这3个关键活动着手,通过本文你将了解到什么是敏捷开发、什么是双周迭代、如何高效地开展排期会,以及如何在云效项目协作Projex 中落地排期会相关事宜。 摘要&a…

Linux 中如何获取文件的绝对路径

我们都知道,在命令行可以使用 pwd 命令来获取当前目录的完整路径(绝对路径):pwd那么,如何获取文件的绝对路径呢?有下列几种方法,可以打印文件的完整路径:readlinkrealpathfindls 和 …

EasyCV开源|开箱即用的视觉自监督+Transformer算法库

简介:EasyCV是阿里巴巴开源的基于Pytorch,以自监督学习和Transformer技术为核心的 all-in-one 视觉算法建模工具。EasyCV在阿里巴巴集团内支撑了搜索、淘系、优酷、飞猪等多个BU业务,同时也在阿里云上服务了若干企业客户,通过平台…

开源数据库为什么能捕获开发者的心?

【CSDN 编者按】开源数据库的重要性,早就不言而喻。早期的自由软件开发者和初创公司,很多都受益于开源数据库。伴随着曾经的初创公司羽翼逐渐丰满,它们的开发者文化渗透到整个生态系统中,更多的人开始关注这些初创公司采取的方法&…

“消息驱动、事件驱动、流 ”基础概念解析

简介:本文旨在帮助大家对近期消息领域的高频词“消息驱动(Message-Driven),事件驱动(Event-Driven)和流(Streaming)”有更清晰的了解和认知,其中事件驱动 EDA 作为 Gartn…

KubeVela 1.3 发布:开箱即用的可视化应用交付平台,引入插件生态、权限认证、版本化等企业级新特性

简介:得益于 KubeVela 社区上百位开发者的参与和 30 多位核心贡献者的 500 多次代码提交, KubeVela 1.3 版本正式发布。相较于三个月前发布的 v1.2 版本[1],新版本在 OAM 核心引擎(Vela Core),可视化应用交…

阿里云发布企业云原生IT成本治理方案:五大能力加速企业 FinOps 进程

简介:阿里云企业云原生 IT 成本治理方案助力企业落地企业 IT 成本治理的理念、工具与流程,让企业在云原生化的过程中可以数字化地实现企业 IT 成本管理与优化,成为 FinOps 领域的践行者与领先者。 作者:莫源 云原生技术与降本增…

阿里云数字化安全生产平台 DPS V1.0 正式发布

简介:数字化安全生产平台则帮助客户促进业务与 IT 的全面协同,从业务集中监控、业务流程管理、应急指挥响应等多维度来帮助客户建立完善专业的业务连续性保障体系。 作者:银桑、比扬 阿里云创立于 2009 年,是全球领先的云计算及…

玩转小程序压测

简介:小程序是移动互联网时代非常重要的流量入口。为了避免因系统性能瓶颈导致用户在使用过程中出现白屏、异常报错等问题影响用户体验,小程序在新功能上线前需要做好压力测试,评估出系统的承载能力,并以压测结果配置限流。让系统…

好的每日站会,应该这么开 | 敏捷开发落地指南

简介:高效落地敏捷开发,先从这3个关键活动着手。在敏捷迭代中,虽然迭代周期比较短,但依然需要对迭代过程进行有效跟进。如果在输入、过程、输出环节,没有要求,每日站会(迭代跟进)将会…

EasyNLP开源|中文NLP+大模型落地,EasyNLP is all you need

简介:EasyNLP背后的技术框架如何设计?未来有哪些规划?今天一起来深入了解。 作者 | 临在、岑鸣、熊兮 来源 | 阿里开发者公众号 一 导读 随着BERT、Megatron、GPT-3等预训练模型在NLP领域取得瞩目的成果,越来越多团队投身到超大…

内容社区行业搜索最佳实践

简介:社区内容通常包括UGC和PGC。由于关键词和内容多样性丰富、用词规范程度参差不齐,搜索引擎需要对关键词和内容进行智能语义分析,识别出用户真正的查询意图,找到最全面最相关的结果满足用户需求。本文将详细介绍如何通过“开放…

手把手,带你用数据做好迭代复盘改进 | 敏捷开发落地指南

简介:高效落地敏捷开发,先从这3个关键活动着手。带你用数据做好迭代复盘改进 ,数据说话,借助云效项目协作Projex 高效开展迭代复盘高效落地敏捷开发。 摘要:高效落地敏捷开发,先从这3个关键活动着手&#…

记一次网络相关的技术问题答疑

大家好,我是飞哥!前段时间飞哥参加了一期 OSChina 官方举办的「高手问答」栏目。在这个栏目里,我和 OSChina 的网友们以《深入理解 Linux 网络》为主题,对大家日常所关心的一些问题展开了一些技术探讨。今天我把这个活动中探讨的内…

Hexo博客框架—轻量、一令部署

简介:Hexo 是一个快速、简洁且高效的博客框架。Hexo 使用 Markdown(或其他渲染引擎)解析文章,在几秒内,即可利用靓丽的主题生成静态网页。Hexo支持Github Flavored Markdown的所有功能, 甚至可以整合Octopress的大多数…

被你质疑价值的混沌工程,阿里巴巴已落地实践了9年

简介:无可讳言,对于混沌工程的价值,目前在业内还没有一个明确的度量标准,但是可以通过简单的例子来有效佐证。据中亭介绍,一方面可以先选定一个场景,从结果上看,混沌工程可以保证场景不劣化&…

同为博客,不同风格 ——Hexo另类搭建

简介:通过阿里云云开发平台快速由Hexo创建赛博朋克风格的博客。 一 、通过云开发平台快速创建初始化应用 1.创建相关应用模版请参考链接:Hexo博客框架—轻量、一令部署 2.完成创建后就可以在github中查看到新增的Hexo仓库 二 、 本地编写《赛博朋克风…

即学即会 Serverless | 初识 Serverless

简介:Serverless 架构被越来越多的业务所采纳,成为其技术选型,大多数开发者已经跨越对 Serverless 概念了解,切实向落地实践出发。本文带大家一探究竟,为什么说 Serverless 可以帮助开发者聚焦核心业务价值&#xff0c…

宜搭小技巧|巧用审批按钮,流程随心流转

简介:一键启用流程退回,再也不用担心“一错回到提交前”! 今天,宜小搭提交了产品采购申请单,却因某项产品选错分类被领导拒绝,宜小搭只能重新填写再提交,这样做既麻烦也影响工作效率。 流程已…