CCKS 2022 | 如何通过“说一句话”精准获取数据?恒生发布金融NL2SQL评测任务

某投资者登录券商理财APP,想要查找最近两年上市的公司,并按照最新的市值进行排序。然而他很难直接找到结果,需要经过层层筛选才能大致找到相关结果。

945103cdd8cd4a43d01066654b131784.png

有没有更简便的方式来查找数据?如果说一句话或者打一小段文字后,就能获得我想要的数据结果,那该有多好!

随着金融机构数智化转型,数据正急剧增长,投研人员、投资经理、运营人员和投资者都希望能够更加快速精准地查找需要的数据,而传统的方法在覆盖度、准确性、可迁移性等方面难以满足需求。面对这一问题,恒生基于在自然语言处理方面的沉淀,在今年的全国知识图谱与语义计算大会(CCKS 2022)中发布了金融NL2SQL(自然语言转SQL)评测任务,NL2SQL方法通过自动将自然语言问句转化为SQL查询,从而实现精准数据问答。

983d74110b5ccab0b170967317466a1e.png

点击图片可跳转至评测任务链接

关于CCKS技术评测

全国知识图谱与语义计算大会(CCKS: China Conference on Knowledge Graph and Semantic Computing)由中国中文信息学会语言与知识计算专委会举办,致力于促进语言与知识计算领域的学术研究和产业发展,为从事相关领域理论和应用研究的学者、机构和企业提供广泛交流的平台,已经成为国内知识图谱、语义技术和知识计算等领域的核心会议。

CCKS技术评测旨在为研究人员提供测试知识图谱与语义计算技术、算法、系统的平台和资源,促进国内知识图谱领域的技术发展,以及学术成果与产业需求的融合和对接。去年,CCKS 2021评测竞赛环节共设立了5个主题共计14个任务,涵盖了金融、医疗、军事、生物、地理、保险、生活服务等各个领域,吸引了超过1万多支参赛队伍,在工业界和学术界形成较高影响力。

今年,经过评测任务征集和评测组委会筛选,CCKS 2022共设立五个评测主题,共15个评测任务。CCKS 2022组委会为每个任务前三名颁发证书,并从所有队伍中特别评选10个“创新技术奖”。专委会还将协同Data Intelligence期刊编辑部组织“评测论文主题专刊”,优秀评测论文将推荐至该专刊免费发表,同时优秀评测论文也将推荐收录进入主会论文集,并有机会推荐至相应期刊发表。

恒生发布金融NL2SQL评测

探索数据精准查询的新玩法

作为本次金融NL2SQL评测任务的发起方之一,恒生在金融领域NLP的落地应用以及前沿技术探索方面,已有丰富的经验。恒生NLP通过自研金融预训练模型、知识积累及注入,形成了可应对长文档、大宽表、纵表、时序等挑战的整体能力,将前沿研究成果平稳落地到金融智能问答、投研分析等场景。

当前结构化数据的精准查询主要通过封装报表实现,但这难以大规模生产,也无法覆盖长尾问题。随着NLP预训练语言模型能力不断取得突破,基于大模型的文本自动转SQL语言技术也日趋成熟。基于NL2SQL技术打造新一代数据交互,并将其作为数智化背景下的数据应用引擎,可以通过“说一句话”的方式直接获取到想要的数据。这将解决投研人员、投资者等数据查找难的问题,并将运营人员从大量报表工作中解放出来,通过知识运维配置即可快速启动新场景的数据查询能力,进而提升业务运行效率。

评测任务

NL2SQL工程化过程中面临多表关联、大宽表、纵表、模型迁移、表识别等挑战。现有数据和方法主要关注“封闭场景,指定库/表,单表查询”设定,这很难满足真实场景应用需求。从领域特性来看,金融数据多为时间序列,包括日频行情、季频财报、年度GDP、不定期股票质押解质押等,这种复杂性会增大问题转SQL难度。考虑到垂直领域知识可能有助于构建可迁移系统,本评测任务将开放金融股票、基金、宏观等场景结构化表格及相关知识,推动垂直领域下NL2SQL技术发展。

数据集

本评测任务将提供有标注数据训练集3966条和验证集1000条,2000条无标签数据作为测试集。除标注数据外,还包括数据库基础信息(db_info.json)、数据库表(.sql文件和.sqlite文件)、领域知识(fin_kb.json)等。

奖励设置

恒生将提供30000元奖金,奖励评测结果优异的团队,具体设置如下:

第一名:15000元

第二名:10000元

第三名:5000元

此外,本次任务将会选出一支队伍参与CCKS评测任务创新奖评选(奖金5000元)。

时间安排

评测任务发布:4月12日

组队截止时间:7月25日(23:59 UTC)

验证集开始提交时间:5月1日(00:00 UTC)

验证集提交截止时间:7月25日(23:59 UTC)

测试集开始提交时间:7月26日(00:00 UTC)

测试集截止提交时间:7月31日(23:59 UTC)

任务组织者及联系方式

林金曙:linjs13607@hundsun.com

娄东方:loudf24454@hundsun.com

张少杰:zhangsj41876@hundsun.com

点击“阅读原文”,即可报名参赛

查看提交文件示例、评测指标等

NLP的更多可能性,等你来探索

推荐阅读:

钱塘之光 | 小满篇:近五年交易所及协会金融科技课题探析

恒生智能文档 | 五大场景,践行金融非结构化文档的数智化进程

钱塘之光 | 立夏篇:十问金融分布式数据库LightDB

d1e6acd6a1bb2a58c41a7e2db3e269ff.png

你“在看”我吗?

b684115e66bbafae9225237bb3f7cd6e.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/477698.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AI从业几年还不具备提出新模型的技术能力?看这个就够了!

AI是一门入门简单,但想深入却很难的学科,这也是为什么AI高端人才一直非常紧缺的重要原因。在AI领域技术领域,我们可以说机器学习功底决定了一个人的上限也不为过。为什么?机器学习就像物理学中的数学,如果你对数学没有…

Spring Cloud Alibaba基础教程:Nacos 生产级版本 0.8.0

昨晚Nacos社区发布了第一个生产级版本:0.8.0。由于该版本除了Bug修复之外,还提供了几个生产管理非常重要的特性,所以觉得还是有必要写一篇讲讲这次升级,在后续的文章中也都将以0.8.0版本为基础。 升级的理由 如Nacos官方的发布文…

LeetCode 1016. 子串能表示从 1 到 N 数字的二进制串(bitset)

1. 题目 给定一个二进制字符串 S(一个仅由若干 ‘0’ 和 ‘1’ 构成的字符串)和一个正整数 N,如果对于从 1 到 N 的每个整数 X,其二进制表示都是 S 的子串,就返回 true,否则返回 false。 示例 1&#xff…

论文浅尝 | KM-BART:用于视觉常识生成的知识增强多模态BART

笔记整理:陈子强,天津大学硕士动机视觉语言模型早期集中在纯理解任务(例如,VQA视觉问答),尽管在理解任务上取得了先进的性能,却很少关注多模态生成任务。当前的预训练任务例如,掩码语…

AllenAI | 用GPT-3帮助增建数据,NLI任务直接提升十个点!?

文 | iven编 | 小轶用机器构建数据集,这件事可能比机器学习诞生的还要早,很多人做过很多工作。怎样让机器参与进来?前人的工作可以分成两类思路:一类是以远程监督为代表,让机器来标注,主要目的在于得到更多…

论文浅尝 | CLIP-Event: 用事件结构连接文本和图像

笔记整理:康婧淇,东南大学硕士,研究方向为多模态事件抽取、自然语言处理。动机视觉语言预训练模型通过理解图像和文本之间的排列组合,在支持多媒体应用方面取得了巨大成功。虽然现有的视觉语言预训练模型主要侧重于理解图像中的物…

LeetCode 402. 移掉K位数字(贪心,单调栈)

1. 题目 给定一个以字符串表示的非负整数 num,移除这个数中的 k 位数字,使得剩下的数字最小。 注意: num 的长度小于 10002 且 ≥ k。 num 不会包含任何前导零。 示例 1 : 输入: num "1432219", k 3 输出: "1219" 解释: 移除掉…

Spring Cloud Alibaba基础教程:使用Nacos实现服务注册与发现

自Spring Cloud Alibaba发布第一个Release以来,就备受国内开发者的高度关注。虽然Spring Cloud Alibaba还没能纳入Spring Cloud的主版本管理中,但是凭借阿里中间件团队的背景,还是得到不少团队的支持;同时,由于Spring …

忙累了躺平,躺醒后该干点啥

文 | 一只菜鸡前几天刷到 微调 的一些碎碎念,觉得自己的2021年还是有蛮多收获的,于是在各位卖萌屋小伙伴的鼓励下,就有了本文。收获很多,我从中挑选出来自我感觉对读者来说比较有用的三点。1. 放低期待,学会适当躺平我…

论文浅尝 | P-Adapters: 从具有不同提示的语言模型中鲁棒地提取事实信息

笔记整理:田玺,浙江大学硕士研究生。研究方向:知识图谱、自然语言处理论文地址:https://openreview.net/forum?idDhzIU48OcZh,录用于ICLR2022摘要之前的工作发现,从大型语言模型(LLMs&#xff…

LeetCode 470. 用 Rand7() 实现 Rand10()(随机概率)

1. 题目 已有方法 rand7 可生成 1 到 7 范围内的均匀随机整数,试写一个方法 rand10 生成 1 到 10 范围内的均匀随机整数。 不要使用系统的 Math.random() 方法。 示例 1: 输入: 1 输出: [7]示例 2: 输入: 2 输出: [8,4]示例 3: 输入: 3 输出: [8,1,10]提示: rand…

Spring Cloud Stream同一通道根据消息内容分发不同的消费逻辑

应用场景 有的时候,我们对于同一通道中的消息处理,会通过判断头信息或者消息内容来做一些差异化处理,比如:可能在消息头信息中带入消息版本号,然后通过if判断来执行不同的处理逻辑,其代码结构可能是这样的…

图谱实战 | 再谈图谱表示:图网络表示GE与知识图谱表示KGE的原理对比与实操效果分析...

转载公众号 | 老刘说NLP知识图谱嵌入是一个经典话题,在之前的文章《知识表示技术:图谱表示VS图网络表示及基于距离函数的表示学习总结》中,围绕知识图谱嵌入学习这一主题,对比了知识图谱嵌入与图网络嵌入的异同。而在实际工作中&a…

LeetCode 1247. 交换字符使得字符串相同

1. 题目 有两个长度相同的字符串 s1 和 s2,且它们其中 只含有 字符 “x” 和 “y”,你需要通过「交换字符」的方式使这两个字符串相同。 每次「交换字符」的时候,你都可以在两个字符串中各选一个字符进行交换。 交换只能发生在两个不同的字…

图深度学习前沿工作汇总与解析

图深度学习除了可以应用于标准图推理任务以外,还广泛应用于推荐、疾病或药物预测、自然语言处理、计算机视觉、交通预测等领域。可见,基于图的深度学习不仅有助于挖掘现有图数据背后的丰富价值,而且还通过将关系数据自然地建模为图&#xff0…

Spring Cloud Stream消费失败后的处理策略(四):重新入队(RabbitMQ)

应用场景 之前我们已经通过《Spring Cloud Stream消费失败后的处理策略(一):自动重试》一文介绍了Spring Cloud Stream默认的消息重试功能。本文将介绍RabbitMQ的binder提供的另外一种重试功能:重新入队。 动手试试 准备一个会…

图谱实战 | 华农夏静波:深层语义知识图谱在药物重定位中的应用

转载公众号 | DataFunSummit分享嘉宾:夏静波 华中农业大学 副教授编辑整理:王金华 电科32所出品平台:DataFunTalk导读:自新冠病毒肺炎疫情发生以来,由于传统药物研发周期长,药物重定位(老药新用…

LeetCode 738. 单调递增的数字(贪心)

1. 题目 给定一个非负整数 N&#xff0c;找出小于或等于 N 的最大的整数&#xff0c;同时这个整数需要满足其各个位数上的数字是单调递增。 &#xff08;当且仅当每个相邻位数上的数字 x 和 y 满足 x < y 时&#xff0c;我们称这个整数是单调递增的。&#xff09; 示例 1…

晋升挂了,leader说不是我技术不行

本文授权转载自公众号“算法圈的小破事”&#xff0c;点击以上卡片进行关注大家好&#xff0c;我是在互联网危险边缘疯狂试探的皮皮虾。今天跟大家分享一个故事。晋升去年秋季&#xff0c;我参加了校招入职以来的第一场晋升答辩。答辩前&#xff0c;我比来比去&#xff0c;觉得…

Spring Cloud Stream消费失败后的处理策略(二):自定义错误处理逻辑

应用场景 上一篇《Spring Cloud Stream消费失败后的处理策略&#xff08;一&#xff09;&#xff1a;自动重试》介绍了默认就会生效的消息重试功能。对于一些因环境原因、网络抖动等不稳定因素引发的问题可以起到比较好的作用。但是对于诸如代码本身存在的逻辑错误等&#xff…