没错,继事理图谱后,我们又搞事情了:数地工场自然语言处理语义开放平台正式对外发布!

2020年的钟声即将敲响,在这辞旧迎新之际,经过近几年在Fintech领域中的自然语言处理技术研发和产品迭代积累,数据地平线Datahorizon迎来重大更新,以数据、事件、逻辑的语义toolbox为愿景的数地工场开放平台V1.0正式对外发布。
数地工场链接:http://nlp.zhiwenben.com
欢迎大家前来体验并提出建议。
01,什么是数地工场
数地工场是由中科院软件所智慧金融团队(数据地平线)以近年来在金融领域的技术积累为基础,基于并行计算系统、分布式爬虫技术、语义知识库构建技术、语义分析技术,一站式满足用户网页信息采集、多源异构信息抽取、语义计算、舆情分析、语言资源构建等中文自然语言处理需求的语义开放平台。
在这里插入图片描述

本平台旨在围绕数据、事件、逻辑三驾马车,通过细化和沉淀相关技术,让用户能够基于平台对外提供API实现问答搜索、舆情分析、文本结构化、事件分析等语义分析应用,也能够通过与我们合作定制产品特色的自然语言处理文本解决方案。

在这里插入图片描述
02,数地工场的语义接口服务
数地工场目前针对中文自然语言处理,围绕数据采集、信息抽取、语义计算、舆情分析四个模块,提供不同层次、不同粒度的语义接口服务,目前提供16类接口服务, 大家可以点击直接体验。

在这里插入图片描述

1)采集类模块
提供针对特定网页元数据结构化服务,包括新闻资讯内容的标题、发布时间、正文提取以及网页表格类提取等接口。

1、 网页正文解析类API
给定新闻url,识别出该页面下的正文、发布时间、标题信息。支持Html网页的标题、正文等十数种重要字段的抽取,以及特殊类型网页的定制化抽取服务。抽取后台完成网页内容的归一化、结构化处理工作,用户只需要调用抽取API即可高效完成从指定页面获得丰富的结构化信息。

在这里插入图片描述
2、 网页表格解析API
给定包含表格的url,基于表格信息识别方法,识别出该页面下的表格解析结果。为用户提供基于页面的半结构化信息提取服务,抽取后台完成网页内容的归一化、结构化处理工作,用户只需要调用抽取API即可高效完成从指定页面获得丰富的结构化信息。
在这里插入图片描述

2)信息抽取类模块
提供不同粒度层级的信息提取服务,包括关键词提取、摘要提取、新词发现、实体识别、短语组块识别、事件三元组、数据三元组以及逻辑三元组提取接口。

1、 关键词提取API
针对给定文本,抽取出该文本的关键词集合,为用户实现诸如新闻内容关键词自动提取、评论关键词提取等提供基础服务,助理文本分析。
在这里插入图片描述

2、 摘要提取API
针对给定文本,抽取出该文本的摘要片段,为用户提供自动摘要生成服务,可进一步实现对文本信息的简化。

在这里插入图片描述
3、 主谓宾三元组提取API
针对给定文本,抽取出文本中的主谓宾事件三元组,为用户提供以事件三元组为核心的文本结构化服务。
在这里插入图片描述

4、 逻辑三元组抽取API
针对给定文本,识别出文本中的因果逻辑事件对,为用户提供事件识别以及逻辑关系的自动识别服务。
在这里插入图片描述

5、 实体识别API
针对给定文本,识别出文本中的实体集合。支持人物、公司、日期、地点类实体的识别,后期不断扩充实体类别,为用户提供领域实体自动发现和判别服务。

在这里插入图片描述
6、 短语组块识别API
针对给定文本,基于句法分析,识别出文本中短语组块集合,为用户提供名词性短语、动词性短语、主谓短语等语义更为丰富的组块服务,可进一步满足文本分析需求。

在这里插入图片描述
7、 数据元组提取API
数据元组提取,基于特定的数据指标提取算法,对数据指标描述非结构化文本进行数据项、数据金额、数据日期等金额类元组等提取,可为泛金融领域知识抽取提供服务。

在这里插入图片描述
3)语义计算类模块
提供针对词级、句子、文档级别的语义分析服务,包括相似度计算、概念抽象、语义联想等接口。

1、 文本共指判定API
针对给定的两个文本,基于融合知识和深度学习的相似度计算模型,为两个文本是否可以共指进行判定,可用于信息检索、问句匹配、知识融合、数据标准化等文本服务。

在这里插入图片描述
2、语义联想API
针对给定一个词,基于底层积累的语义知识库(同义词 、近义词、反义词、语法词、语义词)以及语义关联算法,为用户提供领域词汇的语义联想服务,进一步提升搜索、数据增强、推荐以及知识融合等服务。

在这里插入图片描述
3、 概念抽象API
针对给定一个词,基于底层积累形成的概念抽象知识库以及抽象关联算法,为用户提供词语抽象概念路径生成和查询服务,可进一步提升搜索、推荐等服务。
在这里插入图片描述

4)舆情分析类模块
提供针对领域文本的情感极性、主观性等分析服务,包括情感极性、主观性计算等接口。

1、情感极性判定API
针对给定的文本,对信息进行情感上的正向、负向及中性进行评价,为有情感分析需求的产品提供该文本的情感倾向服务,在舆情监控、话题监督、口碑分析等商业分析领域有非常重要的应用价值。

在这里插入图片描述
2、情感对提取API
针对给定的文本,在情感极性判定的基础上,进一步提取出情感实体二元对,对具体情感涉及的实体及情感倾向性描述进行识别,为用户提供更细粒度、更为精准的情感服务。在舆情监控、话题监督、口碑分析等商业分析领域有非常重要的应用价值。
在这里插入图片描述

3、实体属性情感提取API
针对给定的文本,提取出情实体三元对,对具体情感涉及的实体、实体属性方面以及情感倾向性描述进行识别,为用户提供更细粒度、更为精准的情感服务。在舆情监控、话题监督、口碑分析等商业分析领域有非常重要的应用价值。
在这里插入图片描述

4、主观性计算API
针对给定的文本,基于主观性判方法,对文本描述中所体现出来的主观性(该文章更不确定性,而是表达一种观点或者心理活动)进行刻画,为用户提供文本的主观性得分计算服务,在舆情监控、话题监督、口碑分析等商业分析领域有非常重要的应用价值。
在这里插入图片描述

03,数地工场开放接口的使用方式
我们在平台网站“文档与支持”一栏对数据工场中的各个接口提供了文档与支持,对请求接口和输入输出格式都进行了固定,用户可以点击查看。

在这里插入图片描述
04,数地工场的未来规划
1、 更多稳定精准的语义接口
接下来,我们将逐步开放更多好用的技术类API,围绕数据、事件、逻辑三个方向,逐步深化数据提取(面向多源异构数据的结构化提取与标准化),事件提取(领域事件识别、元素识别与建模管理),逻辑推理(事件关系识别、事件体系构建、事件逻辑推理)等技术,同时紧密结合实际业务需求以及探索与应用场景,将数地工场打造成“面向数据、事件、逻辑的语义工具箱”。
在这里插入图片描述

2、 数地工场技术分享专题计划
此外,数地工场技术服务公众号将紧紧围绕以Fintech金融文本技术为中心,不定期为大家带来相关技术和实战项目分享。具体,我们将从语言资源构建、自然语言处理基础、知识库构建、知识图谱与事理图谱、文本挖掘、语言计算以及深度等几个专题进行分享,并适时结合fintech前沿相关技术,欢迎大家关注。

05,结束语
数地工场作为数据地平线的一个重要技术对外开放平台,将紧紧围绕以金融Fintech为核心,以自然语言处理和底层技术,朝着数据、事件、逻辑三大技术方向的技术进行深入研发,更多好用、靠谱的API以及技术资源分享将与大家见面,欢迎大家试用!
试用地址http://nlp.zhiwenben.com。
更多商业合作,请咨询mkt@datahorizon.cn。

如有自然语言处理、[知识图谱、事理图谱]、社会计算、语言资源建设等问题或合作,如果对事件知识库有兴趣的落地或者研究,可联系我:
1、我的github项目介绍:https://liuhuanyong.github.io
2、我的csdn博客:https://blog.csdn.net/lhy2014
3、about me:刘焕勇,中国科学院软件研究所,lhy_in_blcu@126.com
4、懂语言者得天下,得语言者分天下,得知识逻辑者,游得天下。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480361.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

论文浅尝 | Understanding Black-box Predictions via Influence Func

Cite: Koh P W, Liang P. Understanding black-box predictions via influence functions[J]. arXiv preprint arXiv:1703.04730, 2017.链接:https://arxiv.org/pdf/1703.04730GitHub项目地址:http://bit.ly/gt-influence本文使用影响函数(Influence fun…

ICLR2020满分论文 | 为什么梯度裁剪能加速模型训练?

一只小狐狸带你解锁 炼丹术&NLP 秘籍作者:苏剑林(来自追一科技,人称“苏神”)前言需要许多时间步计算的循环神经网络,如LSTM、GRU,往往存在梯度爆炸的问题。其目标函数可能存在悬崖一样斜率较大的区域&…

快手高级Java四轮面试题:设计模式+红黑树+Java锁+Redis等

快手Java一面(一个小时十分钟) 1.自我介绍 2.说说B树和B树的区别,优缺点等? 3聊聊Spring,主要IOC等等 4多线程JUC包下的一些常见的类,比如CountDownLatch、Semaphore等 5.锁的概念,锁相关的…

数据结构--跳表SkipList

对单链表查找一个元素的时间复杂度是 O(n)通过对链表建立多级索引的结构,就是跳表,查找任意数据、插入数据、删除数据的时间复杂度均为 O(log n)前提:建立了索引,用空间换时间的思路(每两个节点建立一个索引)索引节点总和 n/2n/4n…

领域词汇知识库的类型、可用资源与构建技术漫谈

词是语言系统中重要的语言单元,词语是开展文本处理的基础,在语义表示上具有比字符更丰富的表达能力。词语具有领域特性,不同的领域具有不同的词汇体系,如军事领域、医疗领域、公共治安领域、金融领域之间存在着很大的差异性。这种…

论文浅尝 | EARL: Joint Entity and Relation Linking for QA over KG

Mohnish Dubey, Debayan Banerjee, Debanjan Chaudhuri, Jens Lehmann: EARL: Joint Entity and Relation Linking for Question Answering over Knowledge Graphs. International Semantic Web Conference (1) 2018: 108-126链接:https://link.springer.com/conten…

百度高级Java三面题目!涵盖JVM +Java锁+分布式等

百度高级Java一面 自我介绍 对象相等的判断,equals方法实现。 Hashcode的作用,与 equal 有什么区别? Java中CAS算法? G1回收器讲一下? HashMap,ConcurrentHashMap与LinkedHashMap的区别 如何在多线程环…

python--从入门到实践--chapter 12 pygame_Alien_Invasion

安装pygame包,把安装好的包copy一份到pycharm工程目录下,不然找不到pygame包 抄一遍书上的代码: settings.py class Settings():def __init__(self):self.screen_width 1200self.screen_height 800self.bg_color (255, 255, 255)self.s…

实时事理学习与搜索平台DemoV1.0正式对外发布

我们团队探索了一种将事件、概念、逻辑、实时学习、多类知识库实时更新串起来的知识服务新模式。一个面向事理的实时学习和搜索系统Demo,取名叫“学迹”,取自“学事理,知行迹”。 项目地址:https://xueji.zhiwenben.com 一、 “学…

卖萌屋算法工程师思维导图part3—深度学习篇

卖萌屋的妹子们(划掉)作者团整理的算法工程师思维导图,求职/自我提升/查漏补缺神器。该手册一共分为数据结构与算法、数学基础、统计机器学习和深度学习四个部分。下面是第三部分深度学习的内容~公众号后台回复【思维导图】获取完整手册&…

论文浅尝 | Zero-Shot Transfer Learning for Event Extraction

事件抽取的目标是在非结构化的文本中确认事件的触发词(Eventtrigger)和参与者(Event argument),并判断触法词的事件类型(Eventtype),判断参与者在事件中的扮演的角色(Arg…

今日头条Java后台Java研发三面题目

最近有同学在优知学院留言区留言是否能发布今日头条的面试题目,这位同学,题目来了哦~ 一面 concurrent包下面用过哪些? countdownlatch功能实现 synchronized和lock区别,重入锁 thread和runnable的区别 AtomicInteger实现原理…

实时事理逻辑知识库(事理图谱)终身学习项目-EventKGNELL(学迹)

EventKGNELL EventKGNELL, event knowlege graph never end learning system, a event-centric knowledge base search system,实时事理逻辑知识库终身学习和事件为核心的知识库搜索项目。包括事件概念抽取、事件因果逻辑抽取、事件数据关联推荐与推理。 项目地址&…

python--从入门到实践--chapter 15 16 17 生成数据/下载数据/web API

1.随机漫步 random_walk.py from random import choice class RandomWalk():def __init__(self, num_points5000):self.num_points num_pointsself.x_value [0]self.y_value [0]def fill_walk(self):while len(self.x_value) < self.num_points:x_direction choice([1…

ACL2020 | 基于Knowledge Embedding的多跳知识图谱问答

一只小狐狸带你解锁 炼丹术&NLP 秘籍作者&#xff1a;舒意恒&#xff08;南京大学硕士生&#xff0c;知识图谱方向&#xff09;背景什么是知识图谱问答&#xff1f;知识图谱&#xff08;KG&#xff09;是一个多关系图&#xff0c;其中包含数以百万计的实体&#xff0c;以及…

论文浅尝 | 基于超平面的时间感知知识图谱嵌入

链接&#xff1a;http://talukdar.net/papers/emnlp2018_HyTE.pdf本文主要关注 KG embedding 中三元组成立的时间有效性问题&#xff0c;比如三元组(Cristiano Ronaldo, playsFor, Manchester United)&#xff0c;其成立的有效时间段是2003年到2009年&#xff0c;这个使三元组有…

Java面试进阶:Dubbo、Zookeeper面试题锦集

Dubbo面试题锦集 1、默认也推荐使用netty框架&#xff0c;还有mina。 2、默认是阻塞的&#xff0c;可以异步调用&#xff0c;没有返回值的可以这么做。 3、推荐使用zookeeper注册中心&#xff0c;还有redis等不推荐。 4、默认使用Hessian序列化&#xff0c;还有Duddo、FastJ…

POJ 1064 分割线缆(二分查找)

题目链接&#xff1a;http://poj.org/problem?id1064 题目大意&#xff1a;多根电缆切成指定段数&#xff08;每段相同长度&#xff09;&#xff0c;求每段线缆的最大长度&#xff08;精确到0.01&#xff09; 这题精度控制是难点&#xff0c;方法很简单&#xff0c;二分查找…

Learning to rank基本算法小结

原文链接&#xff1a;https://zhuanlan.zhihu.com/p/26539920 Learning to rank基本算法小结最近工作中需要调研一下搜索排序相关的方法&#xff0c;这里写一篇水文&#xff0c;总结一下几天下来的调研成果。包括Learning to rank 基本方法Learning to rank 指标介绍LambdaMART…

命名实体识别难在哪?

亚里士多德在《形而上学》中认为&#xff0c;对于存在&#xff0c;最重要的问题&#xff0c;就是给世间万物的存在基于语言来分层和分类。从神说要有光起&#xff0c;到基友给你取了个外号叫狗蛋。你会发现&#xff0c;创造与命名&#xff0c;在历史中往往等同。名字是自我概念…