Text2SQL学习整理（五）将Text-to-SQL任务与基本语言模型结合

Text2SQL学习整理（五）将Text-to-SQL任务与基本语言模型结合

news/2025/4/27 5:48:14/文章来源:https://blog.csdn.net/u011426236/article/details/135157426

导语

上篇博客：Text2SQL学习整理（四）将预训练语言模型引入WikiSQL任务简要介绍了两个借助预训练语言模型BERT来解决WIkiSQL数据集挑战的方法：SQLOVA和X-SQL模型。其中，借助预训练语言模型的强大表示能力，SQLOVA已经超越了人类表现。而X-SQL则更进一步，使用MT-DNN取得了比SQLOVA更好的效果。

本篇博客将为大家介绍另一个使用预训练模型的方法：HybridSQL。

Hybrid Ranking Network for Text-to-SQL

HybridSQL认为，之前的工作揭示了WikiSQL上Text-to-SQL的几个主要挑战如下:

(1)如何融合来自NL问题和表模式的信息，由编码器处理;

(2)如何保证输出的SQL查询的可执行性和准确性，由解码器处理;

(3)如何利用预先训练的语言模型。

因而，这篇工作围绕这三点出发，分别进行了改进。

创新点

HybridSQL的贡献主要有三方面。

提出了一种简单有效的网络结构，将Text-to-SQL任务与基本语言模型完美地结合起来，从而最大程度地利用了基本语言模型的强大功能。
作为编码器的基本语言模型直接编码NL问题和列，而不需要任何额外的池操作，这被认为是Text-to-sql中捕获问题-列关系的最佳编码器。
所提出的混合排序机制和Execution-guided decoding（详见上一篇博客）处理列-列关系，有效提高准确率。

模型简介

HybridSQL将Text-to-SQL定义为一个多任务学习问题，可以通过适应预先训练的Transformer模型来解决。

X-SQL中，模型直接对全表进行了序列化处理，在后续预测子任务中，需要进行Attentive pooling。如下图所示，HydraNet的一个创新点在于它将表示层的输入变成了每个列的列文本和query文本组成的对，这样对于每个列都是bert标准的sentence pair输入。最大化利用了预训练模型的性能（BERT、RoBERTa等）。

在预测后续的6个子任务时，HybridSQL将其分为了两大类

与具体列有关的任务，如W-COL，W-OP，W-VAL。
与具体列无关的任务，如W-NUM和SEL-NUM。

在HybridSQL中，与具体列有关的任务被建模成sentence pair输入的分类任务和文本问答任务。由于HydraNet的每一个序列输入中只有一个column，无法获知全局的信息。所以，在这些任务中，HybridSQL通过设定阈值或对所有列的结果加权来得到预测结果。

HydraNet的推理过程如下：

计算每个(ci, q) pair的所有子任务结果；
综合所有对的结果得到W-NUM和SEL-NUM；
对每个pair针对select进行排序，选出得分最高的SEL-NUM个列及其相关的agg作为条件；
对每个pair针对where进行排序，选出得分最高的W-NUM个列及其相关的val、op作为条件；

结果

通过以上改进，HybridSQL取得了超过X-SQL的表现：

总结

本文介绍了X-SQL后的一个借助预训练语言模型的方法：HybridSQL。该方法尽可能的将Text-to-SQL任务和原始的预训练模型的形式保持一致，最大限度的利用预训练模型的表示能力。后面最新的SOTA模型SeaD其实也是从提升预训练模型角度出发，最大限度利用预训练模型的能力。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/577283.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

【Gitlab】CICD流水线自动化部署教程

【Gitlab】CICD流水线自动化部署教程

第一步，准备 GitLab 仓库这个不用多说，得先保证你的项目已经托管在一个 GitLab 仓库中。第二步，定义 .gitlab-ci.yml 文件在你的项目根目录中创建一个 .gitlab-ci.yml 文件。这个文件将定义所有 CI/CD 的工作流程，包括构建、测…

阅读更多...

C++中的内存锁定

C++中的内存锁定

内存锁定(memory locking)是确保进程保留在主内存中并且免于分页的一种方法。在实时环境中，系统必须能够保证将进程锁定在内存中，以减少数据访问、指令获取、进程之间的缓冲区传递等的延迟。锁定内存中进程的地址空间有助于确保应用程序的响应时间满足实…

阅读更多...

OCP NVME SSD规范解读-1

OCP NVME SSD规范解读-1

OCP（Open Compute Project）是一个由Facebook于2011年发起的开源项目。其目标是重新设计和优化数据中心的硬件，包括服务器、存储、网络设备等，以提高效率，降低运营成本，并推动技术的创新和标准化。在OCP中&…

阅读更多...

Leetcode的AC指南 —— 哈希法：1. 两数之和

Leetcode的AC指南 —— 哈希法：1. 两数之和

摘要： Leetcode的AC指南 —— 哈希法：1. 两数之和。题目介绍：给定一个整数数组 nums 和一个整数目标值 target，请你在该数组中找出和为目标值 target 的那两个整数，并返回它们的数组下标。文章目录一、题目二、解…

阅读更多...

C语言：void*概述(垃圾桶)

C语言：void*概述(垃圾桶)

void*类型时，我们通常是在处理一种特殊的指针类型，它可以存储任何数据类型的地址。在本文中，我们将深入探讨void*的特性以及在实际编程中如何使用它。 1. void*概述 void*是C语言中的一种特殊指针类型，它可以存储任何数据类型的…

阅读更多...

pytest 参数化测试

pytest 参数化测试

一、前置说明使用 @pytest.mark.parametrize 装饰器可以实现参数化测试，通过不同的参数运行相同的测试用例，实现在多组输入条件下测试相同的功能，即数据驱动。二、操作步骤 1. 编写测试代码 atme/demos/demo_pytest_tutorials/test_pytest_parametrize.py import pyt…

阅读更多...

C++ Qt开发：Charts绘制各类图表详解

C++ Qt开发：Charts绘制各类图表详解

Qt 是一个跨平台C图形界面开发库，利用Qt可以快速开发跨平台窗体应用程序，在Qt中我们可以通过拖拽的方式将不同组件放到指定的位置，实现图形化开发极大的方便了开发效率，本章将重点介绍TreeWidget与QCharts的常用方法及灵活运用。 …

阅读更多...

部署谷歌的Gemini大模型

部署谷歌的Gemini大模型

前言本文将介绍如何使用Docker、Docker-Compose私有化部署谷歌的Gemini大模型，以及没有服务器的情况下如何使用Vercel来部署。 Demo: 使用新加坡云服务器部署：Gemini Pro Chat (snowice.eu.org) 使用Vercel部署：Gemini Pro Chat (snowice.eu…

阅读更多...

[足式机器人]Part2 Dr. CAN学习笔记-自动控制原理Ch1-5比例积分控制器Proportional-Intefral Controller

[足式机器人]Part2 Dr. CAN学习笔记-自动控制原理Ch1-5比例积分控制器Proportional-Intefral Controller

本文仅供学习使用本文参考： B站：DR_CAN Dr. CAN学习笔记-自动控制原理Ch1-5比例积分控制器Proportional-Intefral Controller 消除稳态误差——设计新的控制器

阅读更多...

AspectJ入门(一)

AspectJ入门(一)

AspectJ是一个面向切面的框架，扩展了Java语言。有一个专门的编译器用来生成遵守Java字节编码规范的Class文件。Spring的AOP底层也是用了这个框架。 AOP可以拦截指定的方法并对方法增强，而且无需侵入到业务代码中，使业务与非业务处理逻辑分离…

阅读更多...

xxl-job使用笔记

xxl-job使用笔记

文章目录 xxl-jobXxlJob 和 JobHandler(过时了) 其他报错 msg：job handler [demoJobHandler] not found.git地址定时任务的实现方式不只一种。最基础的是spring的Scheduled定时任务，使用简单方便，但是用的多了，有一些确定。 xxl…

阅读更多...

机器学习之实验过程01

机器学习之实验过程01

import pandas as pd import numpy as np import matplotlib.pyplot as plt data_path /home/py/Work/labs/data/SD.csv # 请确保您的数据文件路径是正确的 df pd.read_csv(data_path) df.head() # 创建散点图 # 创建散点图 plt.figure(figsize(10, 6)) plt.scatter…

阅读更多...

JAVA解决两数之和 II 输入有序数组问题

JAVA解决两数之和 II 输入有序数组问题

JAVA解决两数之和 II 输入有序数组问题 01 题目给定一个已按照升序排列的整数数组 numbers ，请你从数组中找出两个数满足相加之和等于目标数 target 。函数应该以长度为 2 的整数数组的形式返回这两个数的下标值*。*numbers 的下标从 0 开始计数 &#xff0…

阅读更多...

MySQL 数据库系列课程 05：MySQL命令行工具的配置

MySQL 数据库系列课程 05：MySQL命令行工具的配置

一、Windows启动命令行工具 （1）打开 Windows 的开始菜单，找到安装好的 MySQL，点击MySQL 8.0 Command Line Client - Unicode，这个带有 Unicode 的，是支持中文的，允许在命令行中敲中文。 &…

阅读更多...

三网合一建设方案

三网合一建设方案

一、什么是三网融合？ 三网合一（即三网融合），是指电信网、广播电视网和互联网的相互渗透、互相兼容、并逐步整合成为统一的信息通信网络，其中互联网是核心。只需要引入三个网络中的一个，就能实现电视、互联…

阅读更多...

Java架构师系统架构需求分析实战

Java架构师系统架构需求分析实战

目录 1 导语2 需求分析实战3 核心方法论-架构立方体4 功能性模型-模块定义5 功能性模型-模块关系图6 功能性模型-模块细化想学习架构师构建流程请跳转：Java架构师系统架构设计 1 导语架构设计的实战和思维方法的讨论，主要聚焦于需求分析的重要性和方…

阅读更多...

openGauss学习笔记-172 openGauss 数据库运维-备份与恢复-导入数据-分析表172.1 分析表172.2 表自动分析

openGauss学习笔记-172 openGauss 数据库运维-备份与恢复-导入数据-分析表172.1 分析表172.2 表自动分析

文章目录 openGauss学习笔记-172 openGauss 数据库运维-备份与恢复-导入数据-分析表172.1 分析表172.2 表自动分析 openGauss学习笔记-172 openGauss 数据库运维-备份与恢复-导入数据-分析表执行计划生成器需要使用表的统计信息，以生成最有效的查询执行计划&#…

阅读更多...

c# OpenCvSharp 检测（斑点检测、边缘检测、轮廓检测）（五）

c# OpenCvSharp 检测（斑点检测、边缘检测、轮廓检测）（五）

在C#中使用OpenCV进行图像处理时，可以使用不同的算法和函数来实现斑点检测、边缘检测和轮廓检测。斑点检测边缘检测轮廓检测一、斑点检测（Blob） 斑点检测是指在图像中找到明亮或暗的小区域（通常表示为斑点）&#…

阅读更多...

电子科大软件系统架构设计——设计模式

电子科大软件系统架构设计——设计模式

设计模式概述设计模式的背景设计面向对象软件比较困难，而设计可以复用的面向对象软件更加困难不是解决任何问题都需要从头做起，最好能复用以往的设计方案经验面向对象软件设计经验需要有一定的模式记录下来，以提供给其他设计者使用&#…

阅读更多...

搭建Nginx文件下载站点

搭建Nginx文件下载站点

一、下载Nginx 首先，确保你的服务器上已经安装了Nginx，使用编译安装，下载最新版Nginx。 wget https://nginx.org/download/nginx-1.25.3.tar.gz tar -xf nginx-1.25.3.tar.gz二、安装Fancyindex和Nginx-Fancyindex-Theme模块 # 下载Fancyin…

阅读更多...

最新文章