【Text2SQL 经典模型】SQLNet

论文:SQLNet: Generating Structured Queries From Natural Language Without Reinforcement Learning

⭐⭐⭐⭐

Code:

  • SQLNet | paperwithcode
  • SQLNet| GitHub

一、论文速读

这篇论文强调了一个问题:order-matters problem —— 意思是说,对于一个 SQL query,他有需要相同的等价表述形式,比如说 WHERE 子句中的条件互相交换是等价的,但是对于训练一个 seq2seq 的 model 来说,选择其中的一个是敏感的

之前的 Seq2SQL 模型中,是使用强化学习来解决的 order-matter 问题,根据生成的 SQL query 是否正确来计算奖励并用于训练模型。但后来的工作发现通过强化学习来实现的改进是很有限的。

这篇论文提出了 SQLNet 模型,它采用基于 sketch(草图)的方法来生成 SQL。具体来说,论文预先设计了如下左图所示的一个 SQL sketch,其中 $xxxslots

在这里插入图片描述

然后使用多个模型来填充这些 slots,上图的右图中展示了 slots 之间的依赖关系,比如 SELECT AGGREGATOR 依赖于 SELECT Column 和 question,表示在预测 AGGREGATOR 时,需要将已经预测到 SELECT Column 和 question 作为条件来预测 AGGREGATOR。

从上图的依赖关系可以看出,不同的 WHERE 子句的预测是互相独立的,由此可以避免 order-matter problem。

二、SQLNet 的一些细节

2.1 Sequence-to-set

论文使用 seq2set 来将一个 question 转为一个包含 column names 的集合,这个集合的列名就是 WHERE 语句的列名,由此来预测 WHERE 语句包含哪些条件。

具体来说,就是计算 P w h e r e c o l ( c o l ∣ Q ) P_{wherecol}(col|Q) Pwherecol(colQ) 这个概率值,其中 col 是列名,Q 是 NL question,具体计算公式可以参考原论文。

原论文在推导这个概率的计算公式是,还提出了一个 Column attention 的概念。

2.2 预测 WHERE 子句

WHERE 子句是 WikiSQL 任务中最复杂的预测结构,它的预测也是最有挑战的任务。

在计算出 P w h e r e c o l ( c o l ∣ Q ) P_{wherecol}(col|Q) Pwherecol(colQ) 概率后,选择哪些 columns 作为 WHERE 子句的列呢?论文给出两种方法:

  • 设置一个 threshold,概率大于这个阈值的 column 被选中
  • 由另一个模型根据 question 生成一个数字 K,并选中 top-K 的 columns

2.3 预测 SELECT 子句

预测 SELECT 子句与 WHERE 子句挺相似的,只需要在所有 columns 种选出一个 column 即可,aggregator 的预测也是一个分类器。

2.4 训练 loss

给定一个 question Q,一个包含 C 列的 col,假设 y 是一个 C 维的 vector,其中 y i = 1 y_i = 1 yi=1 表示第 i 个 column 是真的出现在了正确 SQL 的 WHERE 子句中, y i = 0 y_i = 0 yi=0 表示没有。使用如下加权负对数 loss 函数来训练 P w h e r e c o l P_{wherecol} Pwherecol 子模型:

在这里插入图片描述

其中权重 α \alpha α 是一个超参数,用来平衡 positive data 和 negative data。

2.5 权重共享的细节

论文发现,预测不同 slots 所使用的 LSTM 不共享权重更好,同时共享 word embedding 更好。

word embedding 模型采用了 GloVe 模型。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/13926.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【C语言】8.C语言操作符详解(2)

文章目录 6.单⽬操作符7.逗号表达式8.下标访问[]、函数调⽤()8.1 [ ] 下标引⽤操作符8.2 函数调⽤操作符 9.结构成员访问操作符9.1 结构体9.1.1 结构的声明9.1.2 结构体变量的定义和初始化 9.2 结构成员访问操作符9.2.1 结构体成员的直接访问9.2.2 结构体成员的间接访问 6.单⽬…

2024.5组队学习——MetaGPT(0.8.1)智能体理论与实战(中):订阅智能体OSS实现

传送门: 《2024.5组队学习——MetaGPT(0.8.1)智能体理论与实战(上):MetaGPT安装、单智能体开发》《2024.5组队学习——MetaGPT(0.8.1)智能体理论与实战(下)&…

【线段图案】

描述 KiKi学习了循环,BoBo老师给他出了一系列打印图案的练习,该任务是打印用“*”组成的线段图案。 输入描述: 多组输入,一个整数(1~100),表示线段长度,即“*”的数量。 输出描述…

是德科技 DSOS054A MSOS054A示波器

产品 带宽 通道数 最大存储器深度 DSOS054A 高清晰度示波器 500 MHz 4 个模拟通道 800 Mpts MSOS054A 高清晰度示波器 500 MHz 4 个模拟通道和 16 个数字通道 800 Mpts Infiniium S 系列示波…

R语言使用 ggscidca包优雅的绘制支持向量机决策曲线

DCA(Decision Curve Analysis)临床决策曲线是一种用于评价诊断模型诊断准确性的方法,在2006年由AndrewVickers博士创建,我们通常判断一个疾病喜欢使用ROC曲线的AUC值来判定模型的准确性,但ROC曲线通常是通过特异度和敏感度来评价,…

产品研发流程(方法)

产品研发流程(方法) IPD(Integrated Product Development,集成产品开发)和敏捷开发是现代软件开发中常见的两种方法论。 IPD IPD研发流程 IPD是一种系统化的产品开发方法,旨在通过跨职能团队的协作和集成…

vue项目报错:internal/modules/cjs/loader.js:892 throw err;

前言: vue项目中无法正常使用git,并报错情况。 报错信息: internal/modules/cjs/loader.js:892throw err;^ Error: Cannot find module D:\project\sd_wh_yth_front\node_modules\yorkie\src\runner.js 报错处理: npm install y…

GitHub的原理及应用详解(二)

本系列文章简介: GitHub是一个基于Git版本控制系统的代码托管平台,为开发者提供了一个方便的协作和版本管理的工具。它广泛应用于软件开发项目中,包括但不限于代码托管、协作开发、版本控制、错误追踪、持续集成等方面。 GitHub的原理可以简单…

夏天晚上热,早上凉怎么办?

温差太大容易引起感冒 1.定个大概3点的闹钟,起来盖被子。有些土豪可以开空调,我这个咸鱼没有空调。 2.空调调到合适的温度,比如20几度。

Redisson的setConnectionMinimumIdleSize配置,设置小一点有什么影响?

设置最小空闲连接数 (connectionMinimumIdleSize) 是影响 RedissonClient 性能和资源利用的一个关键配置。让我们详细了解一下这个参数的作用及其影响。 什么是 connectionMinimumIdleSize? connectionMinimumIdleSize 参数用于定义连接池中保持的最小空闲连接数。…

【HarmonyOS4学习笔记】《HarmonyOS4+NEXT星河版入门到企业级实战教程》课程学习笔记(十一)

课程地址: 黑马程序员HarmonyOS4NEXT星河版入门到企业级实战教程,一套精通鸿蒙应用开发 (本篇笔记对应课程第 18 节) P18《17.ArkUI-状态管理Observed 和 ObjectLink》 第一件事:嵌套对象的类型上加上 Observed 装饰器…

基于网络爬虫技术的网络新闻分析(四)

目录 4.2 系统异常处理 4.2.1 爬虫异常总体概况 4.2.2 爬虫访问网页被拒绝 5 软件测试 5.1 白盒测试 5.1.1 爬虫系统测试结果 5.1.2 中文分词系统测试结果 5.1.3 中文文章相似度匹配系统测试结果 5.1.4 相似新闻趋势展示系统测试结果 5.2 黑盒测试 5.2.1 爬虫系统测…

shell编程-结构化命令

1、if-then语句 如果command命令执行成功(退出状态码为0),then部分的命令就会执行 if comand then commands fi 或 if comand: then commands fi 例如: #!/bin/bash if date who then echo this is test …

2024电工杯数学建模 - 案例:最短时间生产计划安排

# 前言 2024电工杯(中国电机工程学会杯)数学建模思路解析 最新思路更新(看最新发布的文章即可): https://blog.csdn.net/dc_sinor/article/details/138726153 最短时间生产计划模型 该模型出现在好几个竞赛赛题上,预测2022今年国赛也会与该模型相关。 1 模型描…

CoShNet:使用复数改进神经网络

使用复数改进神经网络 文章目录 一、说明二、了解卷积神经网络三、进入混合神经网络四、令人惊叹的 CoSh 网络五、复杂函数的神奇性质六、相位一致性七、结论 一、说明 本文题为“CoShNet:使用Shearlets的混合复杂值神经网络”,提出了在混合神经网络中使…

深入理解SVM和浅层机器学习算法的训练机制

深入理解SVM和浅层机器学习算法的训练机制支持向量机(SVM)的训练过程SVM的基本概念SVM的损失函数训练方法 浅层机器学习算法的训练机制决策树K-最近邻(K-NN)朴素贝叶斯 结论 深入理解SVM和浅层机器学习算法的训练机制 在探讨浅层…

nrf52832自定义蓝牙名字过长,广播显示不全

自定义蓝牙名字过长,广播显示不全 原因:nrf52832默认使用蓝牙4.x的广播,它的广播包数据只有32byte数据,当广播已经包含足够多的数据的时候,广播每次过长就会显示部分名称,即便你选择"BLE_ADVDATA_FULL_NAME"…

Python学习---基于多任务协程的并发下载器案例

目标:使用协程实现网络图片的下载(适合网络io) 多进程: 密集CPU任务,需要充分使用多核CPU资源(服务器,大量的并行计算)的时候,用多进程。 缺陷:多个进程之间通…

Python基础学习笔记(六)——列表

目录 一维列表1. 索引的查询与返回2. 切片3. 添加元素4. 删除元素5. 更改元素6. 排序7. 生成式 一维列表 列表,也称数组,是一种有序、可变、允许重复元素的组合数据结构,属于可变序列,由方括号[]内、用逗号分隔的一组元素组成。 列…

【Clickhouse】DB::Exception: Table is in readonly mode问题解决

1. 问题描述 公司电力检修&#xff0c;机房断电再上电之后clickhouse的一张表出现了只读现象 2024.05.20 16:58:08.702472 [ 173655 ] {17C25AD8068BBE9A} <Error> executeQuery: Code: 242, e.displayText() DB::Exception: Table is in readonly mode (version 20.5…