基于大语言模型(LLM)的合成数据生成、策展和评估的综述

节前,我们星球组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、参加社招和校招面试的同学。

针对算法岗技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备、面试常考点分享等热门话题进行了深入的讨论。

合集:

《大模型面试宝典》(2024版) 正式发布!


图片

在不断发展的深度学习领域,数据的数量和质量问题一直是一个长期存在的难题。最近大语言模型(LLMs)的出现为合成数据生成提供了一种以数据为中心的解决方案,缓解了现实世界数据的限制。然而,目前对这一领域的研究缺乏统一的框架,大多停留在表面。

因此,本文基于合成数据生成的一般工作流程,整理了相关研究。通过这样做,我们突出了现有研究中的空白,并概述了未来研究的潜在方向。本研究旨在引导学术界和工业界向更深入、更系统地探究LLMs驱动的合成数据生成的能力和应用。

图片

在深度学习领域不断演变的背景下,数据数量和质量的问题一直是一个长期存在的困境。大语言模型(LLMs)的革命性出现引发了深度学习领域的显著范式转变(Zhang et al., 2023a; Guo et al., 2023; Bang et al., 2023)。尽管有这些进展,大量高质量数据仍然是构建稳健自然语言处理(NLP)模型的基础(Gandhi et al., 2024)。具体来说,这里的高质量数据通常指的是包含丰富监督信号(通常以标签形式)并与人类意图紧密对齐的多样化数据。然而,由于高成本、数据稀缺、隐私问题等原因,依赖于人类数据来满足这些需求有时是具有挑战性甚至是不现实的(Kurakin et al., 2023)。此外,多项研究(Hosking et al., 2023; Singh et al., 2023; Gilardi et al., 2023)表明,人类生成的数据由于其固有的偏见和错误,可能并不是模型训练或评估的最佳选择。这些考虑促使我们更深入地探讨一个问题:是否有其他更有效和可扩展的数据收集方法可以克服当前的限制?

鉴于LLMs的最新进展,它们展示了生成与人类输出相当的流畅文本的能力(Hartvigsen et al., 2022; Sahu et al., 2022; Ye et al., 2022a; Tang et al., 2023; Gao et al., 2023a),由LLMs生成的合成数据成为了人类生成数据的一种可行替代品或补充。具体来说,合成数据旨在模仿真实世界数据的特征和模式(Liu et al., 2024)。一方面,LLMs通过广泛的预训练,积累了丰富的知识库,并展现出卓越的语言理解能力(Kim et al., 2022; Ding et al., 2023a),这为生成真实的数据奠定了基础。另一方面,LLMs深厚的指令遵循能力允许在生成过程中实现更好的可控性和适应性,从而能够为特定应用创建定制的数据集,并设计更灵活的流程(Eldan and Li, 2023)。这两个优势使LLMs成为极具前景的合成数据生成器。

作为LLMs的一项关键应用,合成数据生成对于深度学习的发展具有重要意义。如图1所示,LLMs驱动的合成数据生成(Li et al., 2023c; Wang et al., 2021; Seedat et al., 2023)使整个模型训练和评估过程实现自动化,最小化了人类参与的需求(Huang et al., 2023),从而使深度学习模型的优势可以应用于更广泛的领域。除了提供可扩展的训练和测试数据供应之外,LLMs驱动的合成数据生成还可能为开发下一代LLMs铺平道路。来自TinyStories(Eldan and Li, 2023)和Phi系列(Gunasekar et al., 2023; Li et al., 2023b)的见解强调了数据质量对于有效模型学习的重要性,而LLMs赋予我们主动“设计”模型学习内容的能力,通过数据操作显著提高了模型训练的效率和可控性。截至2024年6月,Hugging Face上已有超过300个被标记为“合成”的数据集,许多主流LLMs利用高质量的合成数据进行训练,包括Alpaca(Taori et al., 2023)、Vicuna(Zheng et al., 2023)、OpenHermes 2.5和Openchat 3.5(Wang et al., 2023a)。

尽管看似简单,但生成同时具有高正确性和足够多样性的合成数据集需要精心设计过程,并涉及许多技巧(Gandhi et al., 2024),使得LLMs驱动的合成数据生成成为一个非平凡的问题。虽然大多数现有工作通常针对各种任务(如预训练(Gunasekar et al., 2023; Li et al., 2023b; Eldan and Li, 2023)、微调(Mukherjee et al., 2023; Mitra et al., 2023; Xu et al., 2023a)、评估(Feng et al., 2023; Wei et al., 2024))和不同领域(如数学(Yu et al., 2023a; Luo et al., 2023a)、代码(Luo et al., 2023b; Wei et al., 2023b)、指令(Honovich et al., 2023a; Wang et al., 2023d))进行数据生成,但它们共享许多共同的理念。为了应对LLMs驱动的合成数据生成这一新兴领域中缺乏统一框架的问题,并开发通用工作流程,本综述调查了最近的研究,并根据生成、策展和评估三个密切相关的主题进行组织,如图2所示。我们的主要目的是提供该领域的全面概述,确定关键关注领域,并突出需要解决的空白。我们希望为学术界和工业界带来见解,并推动LLMs驱动的合成数据生成的进一步发展。

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/44824.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【JVM实战篇】内存调优:内存泄露危害+内存监控工具介绍+内存泄露原因介绍

文章目录 内存调优内存溢出和内存泄漏内存泄露带来什么问题内存泄露案例演示内存泄漏的常见场景场景一场景二 解决内存溢出的方法常用内存监控工具Top命令优缺点 VisualVM软件、插件优缺点监控本地Java进程监控服务器的Java进程(生产环境不推荐使用) Art…

【图解大数据技术】流式计算:Spark Streaming、Flink

【图解大数据技术】流式计算:Spark Streaming、Flink 批处理 VS 流式计算Spark StreamingFlinkFlink简介Flink入门案例Streaming Dataflow Flink架构Flink任务调度与执行task slot 和 task EventTime、Windows、WatermarksEventTimeWindowsWatermarks 批处理 VS 流式…

如何查找电脑的MAC地址

一. 什么是mac地址? mac地址本质上帮助我们连接到我们遇到的大多数本地网络。每个网络适配器通常由网络接口​​控制器(NIC) 制造商分配一个唯一的 mac 地址。 二. 如何查找mac地址 1.点击网络和Internet设置 2.点击WLAN点击硬件属性 3.即可查看mac地址

智慧城市3d数据可视化系统提升信息汇报的时效和精准度

在信息大爆炸的时代,数据的力量无可估量。而如何将这些数据以直观、高效的方式呈现出来,成为了一个亟待解决的问题。为此,我们推出了全新的3D可视化数据大屏系统,让数据“跃然屏上”,助力您洞察先机,决胜千…

从零开始实现大语言模型(五):缩放点积注意力机制

1. 前言 缩放点积注意力机制(scaled dot-product attention)是OpenAI的GPT系列大语言模型所使用的多头注意力机制(multi-head attention)的核心,其目标与前文所述简单自注意力机制完全相同,即输入向量序列 x 1 , x 2 , ⋯   , x n x_1, x_2, \cdots, x_n x

pytorch训练的时候 shm共享内存不足,导致训练停止

1.查看shm情况 df -h /dev/shm内存已经满了,因为之前训练多次训练意外停止到shm中的缓存不能及时被清理 2、手动清理shm 依然没被释放 3、查看关联的进程,一个一个kill lsof |grep deletedkill -9 46619 44618 44617 。。。。。4、搞定

Spring @Scheduled学习

一. Jdk中的定时任务 我们平时在 Spring 项目中会使用 Scheduled 开启定时任务; jdk 中其实也提供了定时任务线程池 ScheduledThreadPool,我们可以直接通过 Executors 工具类获取; // 创建了核心线程数为 2 的 ScheduledThreadPool 对象 S…

ROS2 + 科大讯飞 初步实现机器人语音控制

环境配置: 电脑端: ubuntu22.04实体机作为上位机 ROS版本:ros2-humble 实体机器人: STM32 思岚A1激光雷达 科大讯飞语音SDK 讯飞开放平台-以语音交互为核心的人工智能开放平台 实现步骤: 1. 下载和处理科大讯飞语音模…

开发指南048-前端模块版本

平台前端框架内置了一个文件version.vue <template> <div> <br> 应用名称: {{name}} <br> 当前版本&#xff1a;{{version}} <br> 服务网关: {{gateway}} </div> </template> <scrip…

qt 创建一个包含两按钮,且安装和自定义控件间没有间距

在 Qt 中创建一个包含两个按钮且按钮之间没有间距的自定义控件&#xff0c;你可以使用 QHBoxLayout 或 QVBoxLayout&#xff08;取决于你希望按钮是水平排列还是垂直排列&#xff09;&#xff0c;并设置布局的间距为 0。以下是一个简单的示例&#xff0c;展示了如何创建一个水平…

Dataset for Stable Diffusion

1.Dataset for Stable Diffusion 笔记来源&#xff1a; 1.Flickr8k数据集处理 2.处理Flickr8k数据集 3.Github&#xff1a;pytorch-stable-diffusion 4.Flickr 8k Dataset 5.dataset_flickr8k.json 1.1 Dataset 采用Flicker8k数据集&#xff0c;该数据集有两个文件&#xff…

Node.js_mongodb用户名和密码操作

mongodb用户名和密码操作 查看用户密码创建管理员用户和密码mongodb的目标是实现快速简单部署,所以存在很多安全问题 默认配置下没有用户和密码,无需身份验证即可登录,不像mysql那样需要登录才能操作数据库本身安全问题:升级3.0以上版本查看用户密码 密码是加密存储的,并且…

前端工程化10-webpack静态的模块化打包工具之各种loader处理器

9.1、案例编写 我们创建一个component.js 通过JavaScript创建了一个元素&#xff0c;并且希望给它设置一些样式&#xff1b; 我们自己写的css,要把他加入到Webpack的图结构当中&#xff0c;这样才能被webpack检测到进行打包&#xff0c; style.css–>div_cn.js–>main…

速盾:ddos高防ip哪里好用?

随着互联网的飞速发展&#xff0c;DDoS攻击问题逐渐突出。DDoS攻击是一种通过在网络上创建大量请求&#xff0c;使目标网络或服务器过载而无法正常工作的攻击方式。为了应对DDoS攻击&#xff0c;提高网络的安全性和稳定性&#xff0c;使用高防IP成为了一种常见的解决办法。 DD…

Flower花所比特币交易及交易费用科普

在加密货币交易中&#xff0c;选择一个可靠的平台至关重要。Flower花所通过提供比特币交易服务脱颖而出。本文将介绍在Flower花所进行比特币交易的基础知识及其交易费用。 什么是Flower花所&#xff1f; Flower花所是一家加密货币交易平台&#xff0c;为新手和资深交易者提供…

【C++】开源:drogon-web框架配置使用

&#x1f60f;★,:.☆(&#xffe3;▽&#xffe3;)/$:.★ &#x1f60f; 这篇文章主要介绍drogon-web框架配置使用。 无专精则不能成&#xff0c;无涉猎则不能通。——梁启超 欢迎来到我的博客&#xff0c;一起学习&#xff0c;共同进步。 喜欢的朋友可以关注一下&#xff0c;…

Linux系统编程-线程同步详解

线程同步是指多个线程协调工作&#xff0c;以便在共享资源的访问和操作过程中保持数据一致性和正确性。在多线程环境中&#xff0c;线程是并发执行的&#xff0c;因此如果多个线程同时访问和修改共享资源&#xff0c;可能会导致数据不一致、竞态条件&#xff08;race condition…

面试题008-Java-SpringBoot

面试题008-Java-SpringBoot 目录 面试题008-Java-SpringBoot题目自测题目答案1. Spring 和 Spring Boot有什么区别&#xff1f;2. Spring Boot 的主要优点是什么&#xff1f;3. 什么是Spring Boot Starter&#xff1f;4. 介绍一下SpringBootApplication注解&#xff1f;5. Spri…

【密码学】消息认证

你发送给朋友一条消息&#xff08;内容&#xff1a;明天下午来我家吃饭&#xff09;&#xff0c;这一过程中你不想让除你朋友以外的人看到消息的内容&#xff0c;这就叫做消息的机密性&#xff0c;用来保护消息机密性的方式被叫做加密机制。 现在站在朋友的视角&#xff0c;某一…

使用PyQt5实现添加工具栏、增加SwitchButton控件

前言&#xff1a;通过在网上找到的“电池电压监控界面”&#xff0c;学习PyQt5中添加工具栏、增加SwitchButton控件&#xff0c;在滑块控件右侧增加文本显示、设置界面背景颜色、修改文本控件字体颜色等。 1. 上位机界面效果展示 网络上原图如下&#xff1a; 自己使用PyQt5做…