搜索NLP行业模型和轻量化客户定制

简介:开放搜索NLP行业模型和轻量化客户定制方案,解决减少客户标注成本、完全无标注或少量简单标注的等问题,让搜索领域扩展更易用。

特邀嘉宾:

徐光伟(昆卡)--阿里巴巴算法专家

搜索NLP算法

搜索链路

这是一个完整的从查询词到搜索结果的链路, 其中NLP算法发挥作用的地方主要在第二阶段的查询分析,该阶段包含多个NLP 算法模块,如文本侧的分词、纠错、实体识别、词权重、同义词以及语义向量等。系统是结合文本和语义向量多路召回排序的架构,从而满足不同业务场景的搜索效果需求。当然除了查询分析,在第一阶段的搜索引导以及第四阶段的排序服务中也有很多NLP 算法的应用。

查询分析

NLP 算法主要在这里的几个子模块发挥作用:

  • 分词,精准的分词可以提高检索效率,也会让召回结果更加精准,
  • 拼写纠错,对用户输入的query中出现拼拼写错误可以自动去纠错,提高搜索的体验。
  • 实体识别,可以对query 中的每个词打上对应的实体标签,从而为后续的query改写和排序提供关键的特征。
  • 词权重模型,会对每个词打上高、中、低的档位,在查询结果时去做丢词的重查。
  • 同义词,扩展出相同意思的词来扩大召回范围。
  • 最后是经过完整的查询分析模块之后的一个整体的query改写,将用户输入的query转换成我们搜索引擎能识别到的查询串。

现在开放搜索不仅支持了阿里自研的搜索引擎,也对开源的ES引擎做了兼容,可以让用户更方便的使用到我们的算法能力。

行业模型

客户痛点

1.通用模型领域适配难

  • 通用模型主要解决新闻资讯行业问题;
  • 在具体行业上效果会大打折扣;

例如:通用领域和电商领域的模型的区别

2.公开行业模型少

  • 云服务产商基本只提供通用模型
  • 公开行业数据集也主要覆盖通用领域

解决难度

构建一个行业搜索NLP 模型的流程:

  1. 首先是标注数据集这一步对于行业知识的要求非常高,同时对于数据量的要求也需要达到万级别,标注这样的数据同时也需要数个月的时间
  2. 接着是模型训练,这一步是需要有专业的算法人员,如果不是对算法不熟悉的话,模型的迭代效率会很低
  3. 最后是模型上线这一步需要工程人员去部署运维,如果涉及到深度模型的一些上线,还会有很多效率优化的工作需要去做。在数据集标注阶段其实就已经存在了很多的挑战。

分词标注难点

1.领域知识要求高

例如:

  • 药物的名称:利多卡因氯己定气雾剂 | 利多卡因 氯己定 气雾剂
  • 地址:南召县四棵树乡王营村 | 南召 县 四棵树 乡 王营 村

2.交叉歧义判断难

例如:

  • 洗衣服粉 | 洗衣  服  粉

实体识别标注难点

1.领域知识要求高

例如:

  • 澳洲爱他美(母婴品牌)金装一段、科比(球鞋系列)4
  • pytorch实现GAN(算法模型)

解决方法

开放搜索基于阿里巴巴内部搜索的数据积累,结合自动化数据挖掘和自研的算法模型,对行业模型的构建链路做了一个改造。

同样是以分词和NER为例,下面模型图是分词的流程。我们首先通过自动的新词发现算法去挖掘目标领域的领域新词,得到这些新词之后,我们会在目标领域上去构建一个远程监督的训练数据。

基于这样的远程监督训练数据,我们提出了一个对抗学习网络的结构模型,结构可以达到降噪的效果,从而去年得到一个我们目标领域的领域模型。

下面的模型图是NER的流程,我们采用了结合图神经网络的graph NER的模型结构,它可以融合知识库和标注数据。 知识库是由刚才分词的链路中新词发现模块自动挖掘出的新词,然后我们做一个自动的实体词打标,从而去构建出领域的知识库。对应的技术论文我们都已经发表在NLP 领域顶会ACL上。

小结一下,通过上面提到的技术方案,以电商行业为例,看一下开放搜索行业模型上达到的效果。

可以看到开放搜索的电商行业增强版都明显比通用版效果会好很多。

这套方案不仅仅适用于电商行业,只要是有数据积累的行业,都可以快速构建出一套行业模型。

开放搜索轻量化客户定制

客户痛点

首先可以看到通用模型直接使用大概能达到一个60分的效果。

刚刚提到的行业模型,适用能力可以达到80分的效果。

但具体到每个客户又存在细分领域的定制问题。 一般客户的目标可能是要达到90分

比如下面的两个例子:

  1. 左边的这个“万斯汽水系列”,这其实是一个球鞋的一个具体的品牌和系列名称, 虽然开放搜索电商模型已经可以把品牌和普通词识别正确,但是对于汽水这个具体的细分的系列并没有正确的识别好。
  2. 下面右边的这个例子是“汉本萃葆蔚饮品”。这里开放搜索的电商模型完全没有识别出其中特有的品牌和它的子系列,客户在我们提供的行业模型基础上如果去做自主的定制优化一样会遇到上面介绍行业模型解决方案时的那些问题,从而最终很难去突破85分,

我们的目标是减少客户的标注成本,完全无标注或者少量简单的标注,让客户的定制会更加易用,从而直接达到一个85分的效果。

解决思路

整体的流程和行业模型构建链路类似,要把这些能力产品工具化让客户可以自主参与调优。

1.新建训练模型

下图是我们做的一个工具demo,上面是创模型,创建部分客户可以选择基础的行业模型,然后上传自己的领域无标注的数据就可以自动的开始模型的训练。

2.效果评估

下面是模型训练之后客户可以在我们的系统上面去做一个直观的效果评估,可以看到这里会列出基础的模型和以及自动训练之后的模型的效果的变化,客户也可以去做少量的人工标注来验证模型的效果。

这个链路目前已经在阿里内部使用,近期还会在开放搜索的产品上透出给到客户,原来我们去做一个轻量化的客户定制达到上述效果可能需要一到两个月的时间,还需要去标注1万句以上的这些标注数据。现在的话基于这套方案只需要一周的时间,完全无标注或者只需要去标注1000个此以内的标注数据就可以达到这样的效果。

轻量化定制效果展示

我们的工具可以自动发现出场景中的这些新词,并对这些新词做实体标签的预测,可以看到括号中的这些新词是在不同的上下文中预测出的,标签的一个分布从而指导我们去判断这个新词它是否是一个合法的新词,以及它属于的实体标签到底是什么,为我们的模型去提供最关键的信息。

地址场景

电商场景

原文链接
本文为阿里云原创内容,未经允许不得转载。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/511743.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CICD 的供应链安全工具 Tekton Chains

作者 | Addo Zhang来源 | 云原生指北软件供应链是指进入软件中的所有内容及其来源,简单地可以理解成软件的依赖项。依赖项是软件运行时所需的重要内容,可以是代码、二进制文件或其他组件,也可以是这些组件的来源,比如存储库或者包…

python计算不规则图形面积_python opencv中的不规则形状检测和测量

正如我在评论中提到的那样,对于这个问题,分水岭似乎是一个很好的方法.但是当你回答时,定义标记的前景和背景是困难的部分!我的想法是使用形态梯度沿着冰晶获得良好的边缘并从那里开始工作;形态梯度似乎很有效.import numpy as npimport cv2img cv2.imread(image.pn…

深度解析开源推荐算法框架EasyRec的核心概念和优势

简介:如何通过机器学习PAI实现快速构建推荐模型 作者:程孟力 - 机器学习PAI团队 随着移动app的普及,个性化推荐和广告成为很多app不可或缺的一部分。他们在改善用户体验和提升app的收益方面带来了巨大的提升。深度学习在搜广推领域的应用也…

助力公益数字化 火山引擎向公益机构捐赠多款技术产品

5月18日,字节跳动公益联合火山引擎举办了“科技应用创新让公益更美好”线上交流会,与中国红十字基金会、壹基金等多家公益机构探讨如何利用科技信息化产品提升公益事业的效率,从而进一步解决社会问题。 交流会上,火山引擎联合Pic…

云效发布策略指南|滚动、分批、灰度怎么选?

简介:在日常和用户交流过程中,我们也经常会被用户问到关于发布的问题,比如不同职能团队之间应该如何配合、发布的最佳实践应该是什么样子的等等。今天我们就来聊聊常见应用发布方式的选择,以及每种发布模式适合什么样的场景。 无论…

shell安装mysql5.7_一键部署----shell脚本安装MySQL5.7

运维开发网 https://www.qedev.com2020-11-09 12:30出处:51CTO作者:wx5ddda4c97f426一键部署----shell脚本安装MySQL5.7#/bin/bashyum-yinstallncursesbisoncmakegccgcc-cncurses-develuseraddmysql-s/sbin/nologinread-p"输入你存放压缩包的绝对路…

极致用云,数智护航

简介:我们邀请到了阿里云混合云监控平台(Sunfire)团队负责人王肇刚来给我们分析下阿里背后的数字化业务运维安全工程标准及解决方案。 本次分享涵盖了全新发布的数字化业务运维安全工程标准、安全生产解决方案,以及全新升级的产品能力:包括了…

Lakehouse 架构解析与云上实践

简介:本文整理自 DataFunCon 2021大会上,阿里云数据湖构建云产品研发陈鑫伟的分享,主要介绍了 Lakehouse 的架构解析与云上实践。 作者简介:陈鑫伟(花名熙康),阿里云开源大数据-数据湖构建云产品…

菜鸟教程 mysql like_MySQL LIKE 子句

MySQL LIKE 子句我们知道在 MySQL 中使用 SQL SELECT 命令来读取数据,同时我们可以在 SELECT 语句中使用 WHERE 子句来获取指定的记录。WHERE 子句中可以使用等号 来设定获取数据的条件,如 "runoob_author RUNOOB.COM"。但是有时候我们需要获…

云原生 Serverless Database 使用体验

简介:表格存储 Tablestore 作为一款广泛应用 Serverless DataBase,能够提供经济的计费模式,可以大幅缩减业务成本的同时, 具备极致的弹性服务能力和完全零运维的特性,能够给用户带来更丝滑的使用体验。 作者 | 李欣 …

首推业人一体,北森2022春季发布会,正式发布iTalentX5.0

5月19日,中国最大的一体化HR SaaS及人才管理平台北森于线上召开“HR x业务”2022春季新品发布会,基于“业务人力一体化”理念发布iTalentX5.0,以战略和业务为牵引,用数字化平台赋能经理、员工和HRBP, 实现人力资源与业…

【阿里云 CDP 公开课】 第二讲:CDH/HDP 何去何从

简介:Hadoop社区版CDH/HDP已经不再更新,也将终止服务。后续的平台路线图怎么规划?Cloudera CDP整合了CDH和HDP,有哪些性能提升和功能增强?如何平滑的进行迁移?本文结合CDH/HDP平台现状,详细介绍…

mysql表全连接_关于mysql 实现表连接(左,右,内,全连接)

mysql 实现表连接(左,右,内,全连接)查询中出现两个表的连接,下面通过实例来讲解一下各种连接查询的不同之处表 a,和表b 如下图a 表中 有 abcdb表中有 abcf内连接:SELECT * from a INNER JOIN b on a.nameb.…

阿里云 Serverless Kubernetes 的落地实践分享

简介:Serverless Kubernetes 基于 Kubernetes 之上,提供按需使用、节点免运维的 Serverless 能力,让开发者真正实现通过 Kubernetes 标准化 API 进行 Serverless 应用编程,值得关注。 作者 | 元毅(阿里云容器平台高级开…

DevLake 加入 Apache 孵化器,开源共建 Apache 生态首个研发大数据平台

4 月 29 日,开源研发数据平台 DevLake 通过投票决议,正式成为 Apache 软件基金会 (ASF) 的孵化项目。 进入孵化后,Apache DevLake 将遵循 The Apache Way[1],在导师们的引导下,坚持以人为本、社区高于代码的理念&#…

idea连接mysql注册登录_IDEA+MySQL实现登录注册的注册验证时出现 Cannot resolve query parameter '2'...

问题描述:在ideamysqltomcat 实现登录注册jsp的注册信息insert验证时出现 cannot resolve query parameter 2贴上创建链接的代码:if(conn ! null){string sql "select *from login_info where dbuser?";pstm conn.preparestatement(sql);ps…

如何画一张架构图(内含知识图谱)

简介:架构图是什么?为什么要画架构图?如何画好架构图?有哪些方法?本文从架构的定义说起,分享了阿里文娱高级技术专家箫逸关于画架构图多年的经验总结,并对抽象这一概念进行了深入地讨论。内容较…

软件分析与设计:分析什么?如何设计?

简介:分析与设计这两个词我们平时经常听到,也经常讲,那么分析与设计的本质究竟是什么呢?到底要分析什么?又到底要怎样去设计?这3个问题如果平时没有一些积累,突然被问到这些,一时也会…

协程到底有什么用?6种I/O模式告诉你!

作者 | 陆小风来源 | 码农的荒岛求生今天来聊一聊协程的作用。假设磁盘上有10个文件,你需要读取的内存,那么你该怎么用代码实现呢?在接着往下看之前,先自己想一想这个问题,看看自己能想出几种方法,各自有什…

阿里云数据治理系列(一):治理项目启动前的必答三问

简介:近一年以来,越来越多的企业在考虑或正在启动数据治理的项目。作为在该领域从业多年的人士,也常会被咨询:数据治理不是很多年前就有的概念么?为什么忽然很多企业都在提及?是不是新瓶装旧酒?…