2020年的钟声即将敲响,在这辞旧迎新之际,经过近几年在Fintech领域中的自然语言处理技术研发和产品迭代积累,数据地平线Datahorizon迎来重大更新,以数据、事件、逻辑的语义toolbox为愿景的数地工场开放平台V1.0正式对外发布。
数地工场链接:http://nlp.zhiwenben.com
欢迎大家前来体验并提出建议。
01,什么是数地工场
数地工场是由中科院软件所智慧金融团队(数据地平线)以近年来在金融领域的技术积累为基础,基于并行计算系统、分布式爬虫技术、语义知识库构建技术、语义分析技术,一站式满足用户网页信息采集、多源异构信息抽取、语义计算、舆情分析、语言资源构建等中文自然语言处理需求的语义开放平台。
本平台旨在围绕数据、事件、逻辑三驾马车,通过细化和沉淀相关技术,让用户能够基于平台对外提供API实现问答搜索、舆情分析、文本结构化、事件分析等语义分析应用,也能够通过与我们合作定制产品特色的自然语言处理文本解决方案。
02,数地工场的语义接口服务
数地工场目前针对中文自然语言处理,围绕数据采集、信息抽取、语义计算、舆情分析四个模块,提供不同层次、不同粒度的语义接口服务,目前提供16类接口服务, 大家可以点击直接体验。
1)采集类模块
提供针对特定网页元数据结构化服务,包括新闻资讯内容的标题、发布时间、正文提取以及网页表格类提取等接口。
1、 网页正文解析类API
给定新闻url,识别出该页面下的正文、发布时间、标题信息。支持Html网页的标题、正文等十数种重要字段的抽取,以及特殊类型网页的定制化抽取服务。抽取后台完成网页内容的归一化、结构化处理工作,用户只需要调用抽取API即可高效完成从指定页面获得丰富的结构化信息。
2、 网页表格解析API
给定包含表格的url,基于表格信息识别方法,识别出该页面下的表格解析结果。为用户提供基于页面的半结构化信息提取服务,抽取后台完成网页内容的归一化、结构化处理工作,用户只需要调用抽取API即可高效完成从指定页面获得丰富的结构化信息。
2)信息抽取类模块
提供不同粒度层级的信息提取服务,包括关键词提取、摘要提取、新词发现、实体识别、短语组块识别、事件三元组、数据三元组以及逻辑三元组提取接口。
1、 关键词提取API
针对给定文本,抽取出该文本的关键词集合,为用户实现诸如新闻内容关键词自动提取、评论关键词提取等提供基础服务,助理文本分析。
2、 摘要提取API
针对给定文本,抽取出该文本的摘要片段,为用户提供自动摘要生成服务,可进一步实现对文本信息的简化。
3、 主谓宾三元组提取API
针对给定文本,抽取出文本中的主谓宾事件三元组,为用户提供以事件三元组为核心的文本结构化服务。
4、 逻辑三元组抽取API
针对给定文本,识别出文本中的因果逻辑事件对,为用户提供事件识别以及逻辑关系的自动识别服务。
5、 实体识别API
针对给定文本,识别出文本中的实体集合。支持人物、公司、日期、地点类实体的识别,后期不断扩充实体类别,为用户提供领域实体自动发现和判别服务。
6、 短语组块识别API
针对给定文本,基于句法分析,识别出文本中短语组块集合,为用户提供名词性短语、动词性短语、主谓短语等语义更为丰富的组块服务,可进一步满足文本分析需求。
7、 数据元组提取API
数据元组提取,基于特定的数据指标提取算法,对数据指标描述非结构化文本进行数据项、数据金额、数据日期等金额类元组等提取,可为泛金融领域知识抽取提供服务。
3)语义计算类模块
提供针对词级、句子、文档级别的语义分析服务,包括相似度计算、概念抽象、语义联想等接口。
1、 文本共指判定API
针对给定的两个文本,基于融合知识和深度学习的相似度计算模型,为两个文本是否可以共指进行判定,可用于信息检索、问句匹配、知识融合、数据标准化等文本服务。
2、语义联想API
针对给定一个词,基于底层积累的语义知识库(同义词 、近义词、反义词、语法词、语义词)以及语义关联算法,为用户提供领域词汇的语义联想服务,进一步提升搜索、数据增强、推荐以及知识融合等服务。
3、 概念抽象API
针对给定一个词,基于底层积累形成的概念抽象知识库以及抽象关联算法,为用户提供词语抽象概念路径生成和查询服务,可进一步提升搜索、推荐等服务。
4)舆情分析类模块
提供针对领域文本的情感极性、主观性等分析服务,包括情感极性、主观性计算等接口。
1、情感极性判定API
针对给定的文本,对信息进行情感上的正向、负向及中性进行评价,为有情感分析需求的产品提供该文本的情感倾向服务,在舆情监控、话题监督、口碑分析等商业分析领域有非常重要的应用价值。
2、情感对提取API
针对给定的文本,在情感极性判定的基础上,进一步提取出情感实体二元对,对具体情感涉及的实体及情感倾向性描述进行识别,为用户提供更细粒度、更为精准的情感服务。在舆情监控、话题监督、口碑分析等商业分析领域有非常重要的应用价值。
3、实体属性情感提取API
针对给定的文本,提取出情实体三元对,对具体情感涉及的实体、实体属性方面以及情感倾向性描述进行识别,为用户提供更细粒度、更为精准的情感服务。在舆情监控、话题监督、口碑分析等商业分析领域有非常重要的应用价值。
4、主观性计算API
针对给定的文本,基于主观性判方法,对文本描述中所体现出来的主观性(该文章更不确定性,而是表达一种观点或者心理活动)进行刻画,为用户提供文本的主观性得分计算服务,在舆情监控、话题监督、口碑分析等商业分析领域有非常重要的应用价值。
03,数地工场开放接口的使用方式
我们在平台网站“文档与支持”一栏对数据工场中的各个接口提供了文档与支持,对请求接口和输入输出格式都进行了固定,用户可以点击查看。
04,数地工场的未来规划
1、 更多稳定精准的语义接口
接下来,我们将逐步开放更多好用的技术类API,围绕数据、事件、逻辑三个方向,逐步深化数据提取(面向多源异构数据的结构化提取与标准化),事件提取(领域事件识别、元素识别与建模管理),逻辑推理(事件关系识别、事件体系构建、事件逻辑推理)等技术,同时紧密结合实际业务需求以及探索与应用场景,将数地工场打造成“面向数据、事件、逻辑的语义工具箱”。
2、 数地工场技术分享专题计划
此外,数地工场技术服务公众号将紧紧围绕以Fintech金融文本技术为中心,不定期为大家带来相关技术和实战项目分享。具体,我们将从语言资源构建、自然语言处理基础、知识库构建、知识图谱与事理图谱、文本挖掘、语言计算以及深度等几个专题进行分享,并适时结合fintech前沿相关技术,欢迎大家关注。
05,结束语
数地工场作为数据地平线的一个重要技术对外开放平台,将紧紧围绕以金融Fintech为核心,以自然语言处理和底层技术,朝着数据、事件、逻辑三大技术方向的技术进行深入研发,更多好用、靠谱的API以及技术资源分享将与大家见面,欢迎大家试用!
试用地址http://nlp.zhiwenben.com。
更多商业合作,请咨询mkt@datahorizon.cn。
如有自然语言处理、[知识图谱、事理图谱]、社会计算、语言资源建设等问题或合作,如果对事件知识库有兴趣的落地或者研究,可联系我:
1、我的github项目介绍:https://liuhuanyong.github.io
2、我的csdn博客:https://blog.csdn.net/lhy2014
3、about me:刘焕勇,中国科学院软件研究所,lhy_in_blcu@126.com
4、懂语言者得天下,得语言者分天下,得知识逻辑者,游得天下。