安利几个优质NLP开源项目!搜索、问答、情感分析…

自然语言处理技术在各行业有着广泛的应用,然而长久以来,其落地并不是一帆风顺的。

7a02c25c55f72a24b4aff58a1ffb10b6.png

60ae8999fef3706d0f88271aebc5f6d3.png

b98ff0b09d87e6460b533972cd513ddd.png

d7bf21986ced9528e357540b57f5662a.png

针对这些棘手的问题,百度飞桨深耕产业界,选取NLP领域三大高频场景——检索、问答、情感分析,推出面向真实应用场景的系统功能,覆盖金融、电商零售、文娱、旅游、房地产、生活服务等多个行业,万方、荣耀、国美、驴妈妈旅游网、房天下、食行生鲜等均已基于相关方案成功完成业务上线。

6135b685ab84e5b8fc8591323c8a0d6f.gif

语义检索系统

检索系统存在于人们日常使用的很多产品中,比如商品搜索、学术文献检索、通用搜索引擎等。传统方法匹配能力有限,只能捕捉字面匹配,而语义检索能够捕捉深层语义信息,达到更精准、更广泛地召回相似结果的目的。

b2caca7d7e6e929addc42b55bf601306.gif

图:基于字面的稀疏向量检索 vs 基于语义的稠密向量检索

PaddleNLP本次推出语义检索系统,流程图如下,其中左侧为召回环节,核心是语义向量抽取模型;右侧是排序环节,核心是排序模型

eef03fd4bd96f23634a70459fdd5165a.png

图:PaddleNLP Neural Search语义检索系统流程图

具备三大亮点:

  • 低门槛:数据+代码+模型全部开源,无需标注数据也能够轻松构建起检索系统,并且提供训练、预测、近似最近邻(ANN)搜索一站式能力。

  • 精度高:结合业界前沿模型和自有创新思路,推出适用多种数据情况、灵活的技术方案,精度超高。

表:不同技术方案下的Recall@K指标

9d160a406467070f574d3aaeee2abfbe.png

  • 性能好:与开源向量数据库Milvus打通,结合Paddle Inference,实现高性能建库,并在千万级数据中做到毫秒级快速查询。

a5ae3e810f23b2cfa08497deede952d5.png

图:文献检索示例

前往GitHub获取开源代码和模型:

https://github.com/PaddlePaddle/PaddleNLP/tree/develop/applications/neural_search

预训练时代的端到端问答 - RocketQA

问答系统是信息检索系统的一种高级形式,它能用准确、简洁的自然语言回答用户提出的问题,问答系统广泛应用于搜索引擎、智能设备、智能客服等产品中。

7f36ccb6e3b794735ee2e5583b209128.png

图:问答系统应用示例

传统的问答系统通常由多个模块级联组成,而在预训练时代我们可以用一个端到端模型代替传统的复杂系统,实现更好的效果。然而,研发端到端问答模型需要大量的计算和数据资源,为了使更多开发者能方便地获取最先进的问答技术,我们推出了RocketQA开发工具,有三大亮点:

  • 领先:提供国际领先的端到端问答技术-RocketQA,效果远超传统问答系统,与国际知名公司的技术方案相比也有一定优势。

1f3a72cf21c205d17d3fc6ae758f7f6a.png

  • 中文:开源首个中文端到端问答模型,该模型基于知识增强的预训练模型ERNIE和百万量级的人工标注数据集DuReader训练得到,效果优异。

  • 易用:提供11种预置模型、2种安装方式和极简的开发接口, 基于神经搜索框架JINA和近似近邻检索库FAISS,2行命令即可搭建自己的问答系统。

d17f4a6d95251584965a61a472474190.png

前往GitHub获取开源代码和模型:

https://github.com/PaddlePaddle/RocketQA

情感分析系统 

情感分析旨在对带有情感色彩的主观性文本进行分析、处理、归纳和推理,其广泛应用于消费决策、舆情分析、个性化推荐等领域,具有很高的商业价值。

依托百度领先的情感分析技术,食行生鲜自动生成菜品评论标签辅助用户购买,并指导运营采购部门调整选品和促销策略;房天下向购房者和开发商直观展示楼盘的用户口碑情况,并对好评楼盘置顶推荐;国美搭建服务智能化评分系统,客服运营成本减少40%,负面反馈处理率100%。

为了降低技术门槛,方便开发者共享效果领先的情感分析技术,PaddleNLP本次开源的情感分析系统,具备三大亮点:

  • 覆盖任务全:集成句子级情感分类、评论观点抽取、属性级情感分类等多种情感分析能力,并开源模型,且打通模型训练、评估、预测部署全流程。

3f2031b5cc8ec23cacbc467f888dafb3.png

图:PaddleNLP Sentiment Analysis核心能力展示

  • 效果领先:集成百度研发的基于情感知识增强的预训练模型SKEP,为各类情感分析任务提供统一且强大的情感语义表示能力。

7f37e6339d525f504addf1ff3f260fdb.png

  • 预测性能强:针对预训练模型预测效率低的问题,开源小模型PP-MiniLM,配套裁剪、量化优化策略,预测性能提速900%!

前往GitHub获取开源代码和模型:

https://github.com/PaddlePaddle/PaddleNLP/tree/develop/applications/sentiment_analysis

如果您想了解详细技术方案和完整代码、下载开源数据和模型,欢迎关注GitHub Repo,也可在直播中与百度高工交流哦:

PaddleNLP: https://github.com/PaddlePaddle/PaddleNLP

RocketQA: https://github.com/PaddlePaddle/RocketQA

直播预告课

12.28~12.30日每晚20:15~21:30,百度高工将带来直播讲解,剖析行业痛点问题,深入解读系统方案,并带来手把手项目实战。阅读原文即可报名,或者扫码上车!我们直播间不见不散~

扫码报名直播课,加入技术交流群

b3f3a4b30d5495f938d8989d91c3a4f5.png

更多精彩抢先看

f40da6880bdd3858e47b61063ee3559b.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/477743.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Spring Cloud Alibaba基础教程:Sentinel使用Nacos存储规则

通过上一篇《使用Sentinel实现接口限流》的介绍,相信大家对Sentinel已经有了初步的认识。在Spring Cloud Alibaba的整合封装之下,接口限流这件事情可以非常轻易的整合到我们的Spring Cloud应用中。但是,通过上篇的整合,依然还不能…

LeetCode 539. 最小时间差(哈希)

1. 题目 给定一个 24 小时制(小时:分钟)的时间列表,找出列表中任意两个时间的最小时间差并已分钟数表示。 示例 1: 输入: ["23:59","00:00"] 输出: 1备注: 列表中时间数在 2~20000 之间。 每个时间取值在 0…

论文浅尝 | Seq2Seq 知识图谱补全与问答

笔记整理:李行,天津大学硕士论文题目:Sequence-to-Sequence Knowledge Graph Completion and Question Answering链接:https://arxiv.org/pdf/2203.10321.pdf动机知识图嵌入 (KGE) 模型用低维嵌入向量表示知识图 (KG) 的每个实体和…

刀功:谈推荐系统特征工程中的几个高级技巧

前言记得我入算法这一行的第一份工作面试的时候,最终的boss面的面试官是前微软工程院的副院长。面试进行得很顺利,不免向前院长卖弄一番,谈了谈我对算法的理解。我说算法工程师就好比厨师,模型是灶上功夫,而数据预处理…

Spring Cloud Alibaba基础教程:使用Sentinel实现接口限流

最近管点闲事浪费了不少时间,感谢网友libinwalan的留言提醒。及时纠正路线,继续跟大家一起学习Spring Cloud Alibaba。 Nacos作为注册中心和配置中心的基础教程,到这里先告一段落,后续与其他结合的内容等讲到的时候再一起拿出来说…

【报名开启】CCKS2022技术评测任务五“开放知识图谱问答”

转载公众号 | 图谱学苑CCKS2022评测任务五:开放知识图谱问答评测在线报名通道正式开启请通过扫描下方二维码或点击文末阅读原文填写报名信息欢迎大家踊跃报名参赛任务五:开放知识图谱问答任务描述:在互联网软硬件相关技术飞速发展的今天&…

年末回顾:2021年 AI 领域十大研究趋势及必读论文

编 | 小轶,Yimin_饭煲在本文中,我们将梳理近百篇的最新深度学习论文,以总结出“2021 年十大 AI 研究趋势”。AI 领域的论文可谓层出不穷。这篇文章或许能帮助你跟踪总体趋势和重要研究。下文中提及的部分工作可能并不发表于 2021 年&#xff…

LeetCode 445. 两数相加 II(链表大数加法)

1. 题目 给定两个非空链表来代表两个非负整数。数字最高位位于链表开始位置。它们的每个节点只存储单个数字。将这两数相加会返回一个新的链表。 你可以假设除了数字 0 之外,这两个数字都不会以零开头。 进阶: 如果输入链表不能修改该如何处理?换句话…

Spring Cloud Alibaba到底坑不坑?

之前我发过一篇《说说我为什么看好Spring Cloud Alibaba》,然后这两天有网友给我转了这篇文章《坑爹项目spring-cloud-alibaba,我们也来一个》,问我的看法是怎么样的,聊天时候简单说了一下。今天在家休息,抽空整理一下…

聚焦信息抽取前沿难题,CCKS-千言通用信息抽取竞赛报名启动

转载公众号 | 百度NLP信息抽取旨在将非结构化文本中的信息进行结构化,是自然语言处理的基础技术和重要研究领域,一直受到学术界和工业界广泛关注。传统的信息抽取任务与评测通常针对特定的文本领域和单一的抽取任务,难以评估相关技术与方法在…

我有文章了,但也不想搞学术了

文 | 微调源 | 知乎又到了年底,跟大家简单唠唠2021年的收获(和失去)。在2020年的总结文章里(阿调x2020:爱、学术、钱与系统[1]),我最大的困扰可能是读博一年多却没什么主要成果的痛苦。好消息是…

LeetCode 829. 连续整数求和(数学)

1. 题目 给定一个正整数 N,试求有多少组连续正整数满足所有数字之和为 N? 示例 1: 输入: 5 输出: 2 解释: 5 5 2 3,共有两组连续整数([5],[2,3])求和后为 5。示例 2: 输入: 9 输出: 3 解释: 9 9 4 5 2 3 4示例 3: 输入: 15 输出: 4 解释: 15…

说说我为什么看好Spring Cloud Alibaba

最近对《Spring Cloud Alibaba基础教程》系列的催更比较多,说一下最近的近况:因为打算Spring Boot 2.x一起更新。所以一直在改博客Spring Boot专题页和Git仓库的组织。由于前端技术太过蹩脚,花了不少时间。大家不用担心,这个系列不…

【报名开启】CCKS2022技术评测任务七“化学元素知识图谱构建及应用”

任务描述:随着AI技术的发展和普及,药物研发也逐渐进入到AI时代,擅长处理大数据的AI深度学习技术,就成为近年来大家关注的焦点。化合物的性质预测的主要目的在于及时发现理化性质不达标的化合物,以降低候选化合物进入临…

LeetCode 12/13 罗马数字与整型互转(哈希,贪心)

文章目录1. 罗马数字转整型解题2. 整数转罗马数字解题1. 罗马数字转整型 罗马数字包含以下七种字符: I, V, X, L,C,D 和 M。字符 数值 I 1 V 5 X 10 L 50 …

Facebook 推出多模态通用模型 FLAVA,吊打 CLIP 平均十个点!

文 | 子龙编 | 智商掉了一地厉害了!作者将单一模型运用于三个不同领域的不同任务,结构简单且训练直观,还能有着出色的表现。自Transformer横空出世,从NLP到CV,再到今天的多模态,无数基于Transformer的模型被…

Nacos配置中心原理

动态配置管理是 Nacos 的三大功能之一,通过动态配置服务,我们可以在所有环境中以集中和动态的方式管理所有应用程序或服务的配置信息。 动态配置中心可以实现配置更新时无需重新部署应用程序和服务即可使相应的配置信息生效,这极大了增加了系…

论文浅尝 | AI回答小学科学问题达到人类水平(OpenBookQA)

转载公众号 | 南大Websoft AI能否像人类一样学习掌握科学知识,理解运用常识知识,最终像人类一样参加并通过学科考试?近日,南京大学万维网软件研究组(Websoft)在人工智能评测集OpenBookQA上实现了突破&#…

LeetCode 1003. 检查替换后的词是否有效(栈)

1. 题目 给定有效字符串 “abc”。 对于任何有效的字符串 V,我们可以将 V 分成两个部分 X 和 Y,使得 X Y(X 与 Y 连接)等于 V。(X 或 Y 可以为空。)那么,X “abc” Y 也同样是有效的。 例…

论文浅尝 - IJCAI2022 | 基于自适应虚词增强的小样本逆关系分类

论文作者:窦春柳,天津大学,研究方向:知识图谱论文链接:http://arxiv.org/abs/2204.12111代码地址:https://github.com/DOU123321/FAEA-FSRC摘要小样本关系分类(Few-shot Relations Classificati…