火山引擎DataLeap推出两款大模型应用: 对话式检索与开发 打破代码语言屏障

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群

自上世50年代,以“计算机”作为代表性象征的信息革命开始,社会对于先进生产力的认知便开始逐步更迭——从信息化(通常认为是把企业中的信息资源与信息技术有机结合,从而提高企业的管理水平和效率)到数字化(普遍认为是以数据分析为核心,利用各种业务数据去反哺和优化业务过程)转变。

企业希望通过数字化来突破业务瓶颈,实现转型升级。而这期间,数据作为新的生产要素,其重要性毋庸置疑。

9月19日,2023火山引擎数据驱动科技峰会发布数据产品大语言模型(Large Language Models)应用:DataLeap-找数助手、DataLeap-开发助手和DataWind-分析助手,为企业提供从数据资产的检索、到数据开发,再到数据应用的全链路AI能力。

上述能力的发布,其目的就是让企业能更便捷地生产数据、应用数据,实现更普惠的数据消费,为数字化提供现实基础。

DataLeap是火山引擎数智平台(VeDI)推出的大数据研发治理套件,核心是帮助企业快速完成数据集成、开发、运维、治理、资产、安全等全套数据中台建设。

DataLeap此次升级发布的两款大模型应用能力“DataLeap-找数助手”“DataLeap-开发助手”,主要聚焦在企业数据资产查询与数据开发运维两大核心场景,通过大模型能力的加持,降低企业数据资产检索和数据开发的准入门槛。

“DataLeap-找数助手”:AI+数据资产查询 提升数据资产检索效率

利用“DataLeap-找数助手”,可以实现多种数据类型及相关业务知识的问答式检索。

从企业数据消费的链路来看,数据资产的检索、管理可以看作是消费的第一环。找到正确的数据资产,继而才能实现数据的消费。

数据的查找和使用本身强依赖业务专业知识的输入。过去传统技术方案下,数据资产检索重依赖数据结构化管理,需要大量的人力保障,且不够灵活。同时,非结构化数据与数据资产的关联缺失,会导致大量业务信息缺失,而以往基于关键词在结构化及非结构化数据中的检索,由于检索链路割裂,会大大降低基于业务场景的数据查找和消费效率。此外,检索提供的是基于关键词的候选答案集合,需要人为再次筛选确认,不是直接的答案,导致用户很难有良好体验。

与大语言模型(LLM)结合后,资产查询的方式变得更“拟人化”:在与用户对话式的过程中,大语言模型(LLM)可以理解用户真实意图,让搜索过程更聚焦,节约了人为判断的成本。同时,伴随模型语义理解分析能力的逐步提升,对话式检索相比单纯地用关键词检索的方式,其全链路的检索效率也更高。

在功能上,“DataLeap-找数助手”目前主要提供三类:

  1. 找数据,表、数据集、仪表盘等

  2. 问含义,指标的口径信息、维度枚举值含义等

  3. 业务咨询,业务知识咨询,如业务常见术语含义,业务分类等信息

其核心优势在于:

  1. 问答式查询方式,查询效率更高;

  2. 轻量化接入能力,支持自助接入企业知识库;

  3. 语料充分,元数据中心能力完善可提供企业级服务

能力发布后,“DataLeap-找数助手”将让企业的数据资产检索变得更快,使得低成本管理、真正的自助式数据消费变得可行。

“DataLeap-开发助手”:AI+数据生产 降低数据开发门槛

利用“DataLeap-开发助手”,可以实现通过自然语言描述,自动生成代码;针对已有的代码可以自动实现Bug修复,代码优化、解释与注释等;对话式方式进行文档搜索、函数使用、代码示例等问题咨询。

过去,研发人员必须充分熟悉SQL等数据开发语言,才能高效支持数据分析背后的开发需求。但在现实场景中,数据分析师、依赖数据的业务运营人员都会有大量的数据消费诉求,也就意味着需要大量的专业数据研发人员来支持一些看似基础但仍需要人为介入的开发工作。

“DataLeap-开发助手”底层采用大语言模型,经过海量的代码和语料训练,可以根据用户的自然语言输入,自动关联包括表Schema在内的元数据信息,生成高质量的数据加工代码,并具备代码的理解、改写以及领域知识的问答能力。

目前看,“DataLeap-开发助手”主要提供以下3个细分场景的服务:

  1. 生成代码:描述需要处理的问题可以自动生成代码,例如:从多张数据表中,通过关联,自动查询、统计指标数据;

  2. 智能问答:根据你描述的问题进行答疑,例如忘记 Spark 函数怎么写,唤起智能开发助手,询问函数使用方式;

  3. 修复/优化代码:用户可以直接在SQL 编辑器中通过AI修复功能,了解详细的报错原因,并基于修复建议“一键完成”选中代码的修复/优化。

“DataLeap-开发助手”的核心优势在于:

  1. 适配多场景数据开发,简单场景自动开发,复杂场景辅助提效

  2. 内置于编辑器,灵活唤起,减少多工具切换成本,交互体验对齐桌面原生 IDE(集成开发环境)

  3. 模型来源可扩展,支持企业自有模型接入

其核心价值是打破了语言障碍,极大程度降低了数据开发的准入门槛,同时让专业数据研发人员更聚焦复杂场景的需求,利用开发助手优化代码,提高研发生产效率与代码质量。

以DataLeap为代表的火山引擎多个数据产品拥抱AI,本质是为了降低数据消费门槛,通过数据消费来实现企业数据资产与业务应用的飞轮效应,提升企业活力。

点击跳转大数据研发治理套件 DataLeap了解更多

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/87355.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Coupang真的好做吗?韩国Coupang入驻流程——站斧浏览器

coupang真的好做吗? Coupang自开放全球注册以来,一直备受跨境电商各平台卖家的关注,那么作为一颗跨境电商的新星,真的值得做吗? 不到一年的关注度遭到如此众多的跨境卖家追捧的平台,火是有他的原因的&…

【办公类-16-06】20230901大班运动场地分配表-斜线排列、5天循环、不跳节日,手动修改节日”(python 排班表系列)

背景需求: 大班组长发来一个“运动排班”的需求表:“就是和去年一样的每个班的运动排班,就因为今年大班变成7个班,删掉一个场地,就要重新做一份,不然我就用去年的那份了(8个大班排班&#xff0…

【内网穿透】在Ubuntu搭建Web小游戏网站,并将其发布到公网访问

目录 前言 1. 本地环境服务搭建 2. 局域网测试访问 3. 内网穿透 3.1 ubuntu本地安装cpolar 3.2 创建隧道 3.3 测试公网访问 4. 配置固定二级子域名 4.1 保留一个二级子域名 4.2 配置二级子域名 4.3 测试访问公网固定二级子域名 前言 网:我们通常说的是互…

notepad++配合正则表达式分组模式处理文本转化为sql语句

一、正则分组知识点补充 正则分组和捕获 ():用于分组和捕获子表达式。 大白话就是()匹配到的数据,通过美元符号加下标可以获取该数据,例如$1、$2, 下标从1开始。 下面的案例就采用该模式处理文本数据 二、使用正则的需求背景 有一份报表…

小米云原生文件存储平台化实践:支撑 AI 训练、大模型、容器平台多项业务

小米作为全球知名的科技巨头公司,已经在数百款产品中广泛应用了 AI 技术,这些产品包括手机、电视、智能音箱、儿童手表和翻译机等。这些 AI 应用主要都是通过小米的深度学习训练平台完成的。 在训练平台的存储方案中,小米曾尝试了多种不同的…

网络安全CTF比赛有哪些事?——《CTF那些事儿》告诉你

目录 前言 一、内容简介 二、读者对象 三、专家推荐 四、全书目录 前言 CTF比赛是快速提升网络安全实战技能的重要途径,已成为各个行业选拔网络安全人才的通用方法。但是,本书作者在从事CTF培训的过程中,发现存在几个突出的问题&#xff1…

ndoe.js、npm相关笔记

1、npm 全局安装 npm config get prefix 获取 npm 全局安装路径如果全局插件不能正常使用,看环境变量是否已经配置。没有配置则把全局安装路径配置到环境变量的path中

MS933NA适用于 1MP/60fps 摄像头、37.5MHz100MHz、10 位/12 位的串化器

MS933NA 是 10 位 /12 位串化器,支持 37.5MHz  100MHz 时钟, MS933NA 广泛应用于车载摄像、医疗设备、管道探测等领域。 主要特点 ◼ 支持输入 37.5MHz 到 100MHz 的图像时钟 ◼ 单个差分对互连 ◼ 可编程数据有效负载 10 位 /12 …

django 实现:闭包表—树状结构

闭包表—树状结构数据的数据库表设计 闭包表模型 闭包表(Closure Table)是一种通过空间换时间的模型,它是用一个专门的关系表(其实这也是我们推荐的归一化方式)来记录树上节点之间的层级关系以及距离。 场景 我们 …

什么是关系模型? 关系模型的基本概念

关系模型由IBM公司研究员Edgar Frank Codd于1970年发表的论文中提出,经过多年的发展,已经成为目前最常用、最重要的模型之一。 在关系模型中有一些基本的概念,具体如下。 (1)关系(Relation)。关系一词与数学领域有关,它是集合基…

Xcode14.3.1打包报错Command PhaseScriptExecution failed with a nonzero exit code

真机运行编译正常,一打包就报错 rsync error: some files could not be transferred (code 23) at /AppleInternal/Library/BuildRoots/d9889869-120b-11ee-b796-7a03568b17ac/Library/Caches/com.apple.xbs/Sources/rsync/rsync/main.c(996) [sender2.6.9] Command PhaseScrip…

优化类问题概述

数学建模系列文章: 以下是个人在准备数模国赛时候的一些模型算法和代码整理,有空会不断更新内容: 评价模型(一)层次分析法(AHP),熵权法,TOPSIS分析 及其对应 PYTHON 实现代码和例题…

数据通信——应用层(域名系统)

引言 TCP到此就告一段落,这也意味着传输层结束了,紧随其后的就是TCP/IP五层架构的应用层。操作系统、编程语言、用户的可视化界面等等都要通过应用层来体现。应用层和我们息息相关,我们使用电子设备娱乐或办公时,接触到的就是应用…

【刷题笔记9.24】LeetCode:二叉树最大深度

LeetCode:二叉树最大深度 1、题目描述: 给定一个二叉树 root ,返回其最大深度。 二叉树的 最大深度 是指从根节点到最远叶子节点的最长路径上的节点数。 二、思路与算法 如果我们知道了左子树和右子树的最大深度 lll 和 rrr,…

力扣:109. 有序链表转换二叉搜索树(Python3)

题目: 给定一个单链表的头节点 head ,其中的元素 按升序排序 ,将其转换为高度平衡的二叉搜索树。 本题中,一个高度平衡二叉树是指一个二叉树每个节点 的左右两个子树的高度差不超过 1。 来源:力扣(LeetCod…

uni-app使用HBuilder X编辑器本地打包apk步骤说明

1.下载安装Android Studio 下载地址官方地址:Android Studio 下载文件归档 | Android 开发者 | Android Developers 安装Android SDK和Google USB Driver即可,后者主要是为了后期使用USB设置的,如果不需要可以不点。 2.下载uni-app提供…

ICMP差错包

ICMP报文分类 Type Code 描述 查询/差错 0-Echo响应 0 Echo响应报文 查询 3-目的不可达 0 目标网络不可达报文 差错 1 目标主机不可达报文 差错 2 目标协议不可达报文 差错 3 目标端口不可达报文 差错 4 要求分段并设置DF flag标志报文 差错 5 源路由…

Mac磁盘空间满了怎么办?Mac如何清理磁盘空间

你是不是发现你的Mac电脑存储越来越满,甚至操作系统本身就占了100多G的空间?这不仅影响了电脑的性能,而且也让你无法存储更多的重要文件和软件。别担心,今天这篇文章将告诉你如何清除多余的文件,让你的Mac重获新生。 一…

gateway之过滤器(Filter)详解

文章目录 什么是过滤器过滤器的种类局部过滤器代码示例全局过滤器代码示例 总结 什么是过滤器 在Spring Cloud中,过滤器(Filter)是一种关键的组件,用于在微服务架构中处理和转换传入请求以及传出响应。过滤器位于服务网关或代理中…

【力扣-每日一题】213. 打家劫舍 II

class Solution { public:int getMax(int n,vector<int> &nums){int a0,bnums[n],c0;for(int in1;i<nums.size()n-1;i){ //sizen-1,为0时&#xff0c;第一个可以偷&#xff0c;最后一个不能偷size-1&#xff1b;n为1时&#xff0c;最后一个可偷&#xff0c;计算…