自然语言处理在开放搜索中的应用

自然语言智能(NLP)

自然语言智能研究实现人与计算机之间用语言进行有效通信。它是融合语言学、心理学、计算机科学、数学、统计学于一体的科学。它涉及到自然语言和形式化语言的分析、抽取、理解、转换和产生等多个课题。

人工智能可以分为几个阶段

 计算智能,指依靠计算强大的算力和海量数据的存储能力,可以在部分领域超越人类的表现。代表例子就是谷歌的alphago,凭借谷歌TPU的强大算力以及结合类似蒙特卡洛树搜索、强化学习等算法,能够在围棋的巨大搜索空间中计算出好的决策路径,战胜人类,这是计算智能;
 感知智能,是指从无结构化数据中识别出重要的要素。比如给一个query,分析出包含的人民、地名、机构名等;
 认知智能,是在感知之上,能够理解其中要素的含义以及进行一些推理。比如“谢霆锋是谁的儿子 谁是谢霆锋的儿子”两句话。词和实体都差不多,但语义差别很多。这是认知智能要解决的问题;
 创造智能,比如计算机指能够理解语义的基础上,创造出符合常识、语义、逻辑的句子。比如自动写出行云流水的小说、创造娓娓动听的音乐 能够无违和跟人自然聊天等
自然语言处理研究覆盖了感知智能,认知智能,创造智能这样的学科,是实现完整人工智能的必要技术

自然语言智能发展趋势

  1. 深度语言模型突破式发展, 引领重要自然语言技术取得进展;
  2. 公有云NLP技术服务从通用功能走向定制化服务;
  3. 自然语言技术逐步与行业/场景紧密结合, 产生更大价值;

阿里集团NLP平台能力

image.png
从下到上分为了NLP数据、NLP基础能力、NLP应用技术和上层应用。
NLP数据是很多算法的原料,累了包括语言词典、实体知识词典、句法词典、情感分析等词典等。阿里NLP基础技术包含了词法分析、句法分析、文本分析、深度模型。在这之上,是NLP垂直的技术 包括问答 对话技术 反垃圾 地址解析等。这些技术的组合,就支持了很多应用。 其中搜索是NLP能力非常密集的一个应用

开放搜索中NLP应用和典型技术

image.png
• 基础设施包含了阿里云基础产品,以及基于阿里生态搜索场景打磨出的多个搜索自研系统,比如HA3、RTP、Dii等;
• 管控基础平台,保证我们离线数据采集、管理、训练等;
• 算法模块,我们分为两块,一块是查询分析相关,包含多粒度分词、实体识别、纠错改写等;另一个块是相关性和排序相关,包括文本相关性、CTR CVR预估、LTR 等;
(其中橙色背景的表示是跟NLP相关)
开放搜索的目标是要打造一站式、开箱即用的智能搜索服务,所以我们会把这些算法能力,以行业模板、 场景化、周边服务的形式开放给用户。

开放搜索NLP分析链路

搜索的发起,往往是一个搜索关键词触发,比如用户搜索“ aj1北卡兰新款球鞋”

image.png
跨领域分词
我们在开放搜索开放了一系列的领域的分词模型
分词挑战

  1. 各个领域不断新增的未登录词或者叫新词,往往会大大降低分词效果;
  2. 为新用户定制分词模型,从标注到训练的整个过程,成本都比较高;
    解决思路
  3. 结合统计特征,比如互信息、左右上等构建一个成词模型,可以基于用户数据快速构建一份领域词典;
  4. 结合源领域分词模型和目标领域的词典,我们基于远程监督技术可以快速构建一个目标领域分词器;

image.png
(上图为自动跨领域分词框架)
用户只需要提供给我们一些自己业务的语料数据,我们就可以自动的得到一个定制化的分词模型,这不仅大大提升了效率,同时也更快满足客户的需求。
通过这个技术,我们可以在各个领域获得比开源通用分词,更好的效果

image.png
命名实体识别
命名实体识别(NER),例如从query中提取人名 地名 时间等。
挑战与困难
NER在NLP领域研究非常多同时也面临很多的挑战,尤其在中文上由于缺乏天然分隔符,面临边界歧义、语义歧义、嵌套歧义等困难。
**解决思路
**• 下图右上角是我们在开放搜索中使用的模型架构图;
• 在开放搜索中,很多用户都积累了大量词典实体库。为了充分利用这些词典,我们提出了一种在bert之上,有机融合知识的graphNer框架。从右下角的表格可以看出,在中文上能取得最好的效果;

image.png
拼写纠错
开放搜索分为4个纠错步骤包含了挖掘、训练、评估和在线预测。
主要的模型根据统计翻译模型和神经网络翻译模型两套系统,同时在性能、展示样式和干预上有一套完备方法。

image.png
语义匹配
深度语言模型的出现给很多NLP任务带来了跨越式的提升,尤其是在语义匹配等任务上。
达摩院在bert上也提出了很多创新,提出了自研的StructBert。主要创新点在于在深度语言模型训练中,增加了字序/词序的目标函数 和更多样的句子结构预测目标函数,进行多任务学习。但是这样的通用的structbert是无法试用给开放搜索里成千上万个客户,成千上万个领域的。我们需要做领域适配。所以我们提出了语义匹配3阶段范式。 可以快速的为客户定制适合于自己业务的语义匹配模型。

image.png

(具体的流程如图)

NLP算法产品化

算法模块产品化的系统架构,包含了离线计算、在线引擎以及产品控制台。
图中浅蓝色的部分是NLP在开放搜索上开放的算法相关功能,用户可以直接在控制台体验和使用。
image.png

 

原文链接
本文为阿里云原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/514927.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

搞定客户端证书错误,看这篇就够了

简介: TLS/SSL 握手失败引起的连接异常问题怎么搞?阿里云 SRE 工程师手把手带你排查解决。 1.TLS/SSL 握手基本流程 *图片来源于网络 2.案例分享 2.1CFCA 证书的历史问题 2.1.1背景 某客户为其生产环境的站点申请了一张由 CFCA 签发的证书。相关域名…

程序员通过脚本免费领到 CSDN 会员卡

很多人喜欢下载插件去丰富浏览器现有功能各式各样的脚本虽有趣但若是能亲手设计开发一个脚本看着大家玩着自己的脚本是不是会觉得更加有成就感呢?想拥有一款属于自己的脚本吗?想获得丰厚的奖品吗?那么就千万不要错过这次活动【2021CSDN脚本征…

12123两小时没付款怎么办_机械厂上班的男朋友,一天十小时,周末不休,没时间陪我怎么办?...

01小江是去年认识的男朋友,当时觉得男朋友老实,在机械厂上班,能吃苦能挣到钱,以后能养家糊口,老老实实过一份踏实的日子。理想很丰满,现实很骨感。他们认识的时候正好是夏天,天气热。男朋友的工…

小红书推荐大数据在阿里云上的实践

简介: 本篇内容主要分三个部分,在第一部分讲一下实时计算在推荐业务中的使用场景。第二部分讲一下小红书是怎么使用Flink的一些新的功能。第三部分主要是讲一些OLAP的实时分析的场景,以及和阿里云MC-Hologres的合作。 作者:小红书…

AI 3D 传感器市场竞争白热化,中国掌握自主可控核心技术时不我待!

受访者 | 孔博记者 | 夕颜图源 | 视觉中国出品 | AI科技大本营(ID:rgznai100)提到AI 3D传感技术,也许很少有人脑中有概念。但是以下图iPhone手机最早推出的3D虚拟表情生成为例,大概就会知道这项技术可以用来做什么了。 2017年苹果…

数据中台交付专家告诉你,数据架构的分层怎样更加合理?

作者:柯根 从整体上看,数据中台体系架构可分为:数据采集层、数据计算层、数据服务层三大层次。通过这三大层次对上层数据应用提供数据支撑。 数据采集层 对于企业来说,每时每刻都在产生海量的数据,数据采集作为数据…

手机版腐蚀rust_手机进水后黑屏,该怎么办?切忌做这几件事

手机进水后黑屏,不可急于开机,应先取下SIM卡,然后拆机对手机内部的主板及各个接口进行清理。如果处理后仍然黑屏,通常可以通过修复受损电路及更换屏幕来解决这个问题。手机进水引起黑屏的原因手机内部进水,通常由听筒、…

XXL-Job集群部署和⾼可⽤最佳实战

文章目录一、调度中心集群部署1. HA/集群2. 调度中⼼集群3. 执⾏器集群4. 集群需要满足的条件5. 集群部署最佳实战二、任务执行器的集群配置2.1. 集群地址配置2.2. 执行器名称配置2.3. 执行器端口三、路由策略一、调度中心集群部署 1. HA/集群 为了避免单点故障,任…

看动画学算法之:linkedList

简介 linkedList应该是一种非常非常简单的数据结构了。节点一个一个的连接起来,就成了linkedList。今天我们使用动画的方法一起来看看linkedList是怎么插入和删除的。 linkedList的构建 linkedList是由一个一个的节点构成的。而每个节点只需要存储要保存的数据和…

CSDN鸿蒙社区福利:HarmonyOS Beta 版内测资格申请

HarmonyOS Beta 版测试申请入口已于5月17日全面关闭,屏幕前正在敲代码的你是不是错失了这次机会? 作为 HarmonyOS 的合作伙伴,“CSDN鸿蒙社区”为广大 CSDN 乡亲们申请到部分内测资格,只要拥有内测资格设备即可免费申请&#xff0…

linux环境~Kafka集群 监控 Kafka Eagle 图形化版本

文章目录一、安装、配置、验证1. 安装包下载2. 开启kafka JMX3. 安装JDK,配置JAVA_HOME4. 上传安装包、解压5. 配置Kafka-eagle环境变量6. 配置Kafka_eagle7. 配置ke.sh8. 启动Kafka_eagle9. 防火墙10. 访问Kafka eagle二、监控面本总览2.1. Dashboard2.2. MESSAGE2…

前端搞报表|数据分析提效全链路解决方案

简介: 前端早早聊直播干货 作者:闲鱼技术-云听 背景介绍 闲鱼 2014 年成立,到现在的话已经实现了从 0 ~ 千万级 DAU 的跃迁,随着业务的快速发展,业务决策方法紧跟升级。从最原始的经验驱动到更加科学合理的数据驱动…

kafka消息过期时间设置(全局和特定topic)

文章目录一、kafka 全局消息过期时间设置1. 配置文件夹2. 修改配置3. 重启配置生效二、针对特定topic设置过期时间2.1. 配置文件夹2.2. 执行设置命令三、kafka过期消息删除过程一、kafka 全局消息过期时间设置 1. 配置文件夹 进入kafka配置文件夹 /app/kafka_2.12-2.2.0/con…

DeVOpS 实战:Kubernetes 微服务监控体系

来源 | 无敌码农责编 | 寇雪芹头图 | 下载于视觉中国监控系统是运维体系乃至整个软件产品生命周期中最重要的一环,完善的监控可以帮助我们事前及时发现故障,事后快速追查定位问题。而在以微服务为代表的云原生架构体系中,系统分为多个层次&am…

面对复杂业务,if-else coder 如何升级?

作者 | 张建飞 阿里巴巴高级技术专家 导读:针对业务在不同场景下的差异,我们常常会习惯性地使用 if-else 来实现不同的业务逻辑,久而久之代码越来越难以维护。那么如何消除这些 if-else?面对复杂业务应如何思考和分析&#xff1f…

adobe怎么统计字数_SEO技能:怎么写站内文章对网站排名更好?

每个做seo的人都知道真相,而且不会累积千里。意思是要注意网站上每篇文章的写作,因为网站的流量和权重一般需要所有网页的共同支持。因此,如何撰写有利于网站优化的文章尤为重要。虚拟社群提醒大家,细节通常被认为是成功的。通过写…

网站都变成灰色,一行代码就搞定了!

文章目录一、主流网站主题分析1. 腾讯课堂2. bilibili3. CSDN二、默认样式2.1. 腾讯课堂2.2. bilibili2.3. CSDN三、 案例demo一、主流网站主题分析 实现原理:在html标签上的class添加一个全局过滤器样式即可 1. 腾讯课堂 在html标签添加一个class,给cl…

应用架构之道:分离业务逻辑和技术细节

简介: “让上帝的归上帝,凯撒的归凯撒。” 作者 | 张建飞 阿里巴巴高级技术专家 架构 什么是架构? 关于架构这个概念很难给出一个明确的定义,也没有一个标准的定义。 硬是要给一个概述,我认为架构就是对系统中的实…

Java面试高频题:Spring Boot+JVM+Nacos高并发+高可用已撸完​

2021都说工作不好找,也是对开发人员的要求变高。前段时间自己有整理了一些Java后端开发面试常问的高频考点问题做成一份PDF文档(1000道高频题),同时也整理一些图文解析及笔记,今天在这免费分享给大家,希望大…

IEEE EDGE 2020论文:Astraea — 以优雅的方式在边缘部署AI服务

简介: 近日,阿里云边缘计算团队博士后付哲的论文《Astraea: Deploy AI Services at the Edge in Elegant Ways》入选2020年IEEE边缘计算国际会议(IEEE International Conference on Edge Computing),并在大会上进行了宣…