LLM大模型和数据标注

对于那些不精通机器学习的人来说,像 ChatGPT 所基于的 GPT-3.5 这样的大型语言模型似乎是自给自足的。这些模型通过无监督或自我监督学习进行训练。简而言之,只需极少的人工干预,就能生成一个能像人类一样对话的模型。

这就引出了一个问题--数据标注对大型语言模型还有意义吗?

对于机器学习团队、项目经理和企业来说,忽视数据标注的重要性是不明智的。从表面上看,大型语言模型(LLM)似乎能够胜任任何任务,但现实却并非如此。

本文将探讨数据标注与大型语言模型之间的互利关系。

1. 什么是数据标注

在正式开始前我们先简单介绍下数据标注和常用场景

数据标注是对数据中的特定元素进行识别、描述和分类,以训练机器学习模型的过程。标注后的数据将用于处理、预测基础模型或者对真实生活数据进行响应。它有助于模型或神经网络学习并做出决策,从而产生所需的结果。

例如,OCR系统需要识别原始数据中的个人身份信息。为此,标注人员会在训练样本上标注姓名、身份证和联系方式。然后,机器学习工程师用数据集训练模型,以实现OCR实体识别,并从存储的文档中提取个人详细信息。

数据标注看似简单,但各种参数可能会影响标注结果和模型性能。因此,ML 团队使用数据标注软件来支持他们创建准确、高性能的模型。

2. 数据标注常用使用场景

早在LLM或者生成式人工智能出现之前,数据标注就已经在机器学习模型的训练中发挥了关键作用。

  • ML 工程师对数据进行标注,以支持命名实体识别、翻译和情感分析等自然语言处理 (NLP) 任务。
  • 在训练图像识别系统以检测和分类物体时,标注也很有帮助。
  • 医疗保健系统利用标注数据训练神经网络,以便从成像数据中诊断疾病。
  • 金融业利用各种数据集训练模型,以进行欺诈检测和信用评分。
  • 自动驾驶汽车依赖精确的数据集来训练能够实时分析多种传感器数据的模型。

3. 什么是LLM大模型

大型语言模型(LLM)是使用海量数据训练的语言神经网络模型。它们大多基于Transformer 神经网络架构。与前者不同的是,Transformer 能够并行关注多个单词,这使得模型能够理解相距甚远的单词之间的关系。

像 GPT、Bard 和 BERT 这样的语言模型是大型语言模型。因此,它们可以与用户对话,用自然语言构建答案。然而,它们的智能化需要付出高昂的代价,而且需要大量的原始数据。尽管如此,这些模型在下游应用中的功能还是受到了限制,下面我们将对此进行说明。

4. 大语言模型是怎么训练的

在进一步了解之前,我们先来看看机器学习工程师是如何训练 GPT-3 等 LLM 的。

准备和预处理


首先,数据科学家从互联网、书籍和公共数据集等各种来源收集大量原始文本数据。然后,标注员清理数据,确保数据不存在错误、噪音或偏差。之后,通过标记化等预处理步骤,将原始数据转换成模型可以理解的格式。标记化将文本数据转化为由单词或子单词组成的更小的语言单位。

训练和优化


像 GPT3 这样的大型语言模型使用下一标记词预测和mask-level modeling来形成对语言结构的自然理解。

  • 下一个标记词预测使模型能够预测当前一个标记词之后最有可能出现的词或标记词。例如,该模型尝试用 "blue "一词来完成短语 "The ocean is ____"。
  • mask-level modeling包括随机删除句子中的特定单词或短语。然后,提示模型预测适合填入空白处的适当单词或短语。

这两种自然语言处理训练方法都能使模型提高提供最相关输出的概率。它通过将生成的输出结果与预期结果进行比较来实现这一目的。然后,它将差异或错误传递给网络进行后续优化。模型可以通过评估损失梯度来重新调整参数和权重,以弥补产生的差异。这一过程是迭代式的,模型会重复这些步骤,直到达到令人满意的性能为止。

模型评估和微调


最后,经过训练的模型要进行评估测试,即由人工智能工程师向其输入一组带标注的测试数据。根据测试结果,他们可能会进一步调整模型参数,或针对特定目的进行微调。后者涉及监督训练,即向模型提供带标注的数据集。

5. 数据标注在训练大语言模型中的意义

从理论上讲,大型语言模型可以在没有标注数据的情况下实现功能。像 GPT3 这样的模型使用自监督或无监督学习来开发理解自然语言的能力。它不使用标注数据进行训练,而是使用下一个单词预测方法来学习如何以最符合上下文逻辑的方式完成句子。

大型语言模型虽然智能,但并不完美,往往不适合实际应用。原因就在这里。

大型语言模型本身无法执行专业或特定业务任务。例如,您不能使用 ChatGPT 作为您公司的聊天机器人,因为它不是根据您的产品或服务训练出来的。

LLM 容易产生偏差,从而影响其响应的准确性和适当性。在安全、金融和其他关键任务行业,这可能会导致代价高昂的不公平预测。

如果没有额外的规定,GPT 等模型可能会被滥用或误用。作为预先训练好的模型,它们可能会用不恰当的文本、过时的信息或捏造的事实做出回应。

以下是大语言模型功能受限的一些例子

一般来说,LLM 依赖于它们所训练的数据集和自我监督能力。不幸的是,在实际模型中,预期输出和实际性能之间存在差距,这就需要数据标注发挥作用。标注不是训练整个模型,而是帮助优化模型,使其适用于实际应用。

下面,我们将分享标注如何提高 LLM 的整体性能、正确性和实用性。

预训练 Pre Train


虽然大型语言模型在训练过程中不直接使用注释数据,但仍可从人工标注者那里获益。通常情况下,此类模型的重新训练成本过高,这就凸显了人工标注在清除错误信息方面的重要性。标注员可以整理并清除数据集中的噪音和错误,从而提高训练模型的可靠性。

微调 Fine Tune


数据注释对于为特定应用定制大型语言模型至关重要。例如,您可以利用对业务或行业的深入了解对 GPT 模型进行微调。这样,您就可以创建在您的细分领域一个类似于 ChatGPT 的聊天机器人,用最新的产品知识吸引客户。

模型评估 Evaluation


随着研究人员不断推出新的语言模型,他们需要一种公平的方法来评估这些模型的性能。标注数据提供了单一的基本事实,可用于比较模型之间的精确度、召回率或 F1 分数等指标。

语境理解


大型语言模型在理解不同语言语境和细微差别方面通常比其前辈更胜一筹。尽管如此,并不是所有的模型都同样擅长理解人类语言的复杂性。因此,标注有助于提高它们理解和应对不同语言风格的能力。

6. 使用数据标签微调 LLM 的三个步骤: 以 ChatGPT 为例 


预先训练好的 GPT 模型能够将句子连贯地串联在一起,但需要进一步完善以适应特定的目的。ChatGPT 采用了一种名为 "人类反馈强化学习"(RHLF)的技术进行微调,以改进其目的对齐。RHLF 的工作原理是在预训练模型预测标注数据集的可能输出时对其进行奖励。

为了对 ChatGPT 进行微调,OpenAI 的工程师们经历了以下几个步骤。

第一步:监督微调(SFT)
监督微调包括由人类标注团队创建一组提示及其预期输出。然后,工程师使用提示-输出组合训练基础 GPT 模型,生成 SFT 模型。由于这种方法是人工完成的,因此成本高且缺乏可扩展性。此外,标注员创建的数据集不足以彻底微调像 GPT 这样庞大的模型,因此我们需要进行下一步。

第二步:奖励模型
奖励模型克服了 SFT 的扩展能力。工程师不需要从头开始创建数据集,而是使用 SFT 模型为一个提示自动生成多个答案。然后,标注员对答案进行排序,以反映最佳匹配到最不理想匹配。

通过这种方法,OpenAI 的工程师可以生成更大的数据集,而不受人力资源的限制。然后,他们利用这个数据集来训练奖励模型,根据人类的偏好来预测 SFT 模型的得分。

第 3 步:近端策略优化 (PPO)
在最后阶段,工程师创建了一个涉及 PPO 和奖励模型的强化学习机制。PPO 模型是 LLM 模型的一个副本,它产生一个输出,奖励模型为其分配一个分数。根据得分,PPO 模型将在下一次迭代中调整其策略并提高性能。

7.使用 LLM 自动进行数据标注 


ChatGPT 在数据标注方面的应用凸显了后者在对齐 LLM 方面的重要性。同样,这也表明 LLM 对于标注任务非常有用。公司面临着成本和资源压力,需要为日益复杂的深度学习模型创建大量准确的数据集。通过启用 ML 辅助标注,它们可以在标注任务中提高生产力和成本效益。

机器学习如何帮助实现数据标注自动化
LLM 能够自然地理解人类语言。不过,它们同样擅长数据结构、主动学习和生成合成数据。这使得像 GPT 这样的 LLM 能够帮助完成预标注任务。标注者可以使用 LLMs 识别和标注文本数据中的特定实体,而不是手动标注整个数据集。

有些 LLM 具备零次学习或少量学习的能力,这使得模型无需微调即可做出预测。在数据标注方面,这种能力使 LLM 可以执行人工标注任务,而无需进行冗长的准备工作。这样,人工标注人员就可以投入更多时间来查看已标注的数据集。当然,这也为企业节省了时间和成本。

自动化数据标注的工具和技术
现在,您可以利用 ChatGPT 或 GPT 本身来协助您完成预标注任务。为此,您需要及时掌握工程知识,为 ChatGPT 创建适当的指令,以便进行分析、标注并以适当的格式返回结果。另外,ML 工程师也可以使用 OpenAI API 密钥以编程方式访问 GPT 模型。

让我们以 NER 项目为例。在这种情况下,可以要求 LLM 以 JSON 字符串的形式返回实体。采用这种格式后,实体就可以上传到 ML工程师的数据库。

这样,LLM 就能与现有的自动标注管道实现无缝集成。例如,我们在后面讲演示了如何使用 GPT 在 CoNLL2003 数据集上应用命名实体识别标记,并将预先标注的数据导出到我们的标注平台。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/611141.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

性能分析与调优: Linux 文件系统观测工具

目录 一、实验 1.环境 2.mount 3.free 4.top 5.vmstat 6.sar 7.slabtop 8.strace 9.opensnoop 10.filetop 11.cachestat 二、问题 1.Ftrace实例如何实现 2.Function trace 如何跟踪实例 3.function_graph Trace 如何跟踪实例 4.trace event 如何跟踪实例 5.未…

ESP32-S3 使用内置USB下载程序、调试、LOG相关问题总结

目录 Preface: (一)为电脑安装USB驱动 (二)Platformio工程 (三)相关文章 (四)总结 Preface: esp32-s3有一个built-in的usb-jtag,可以用来下载…

Linux环境vscode clang-format格式化:vscode clang format command is not available亲测有效!

问题现象 vscode安装了clang-format插件,但是使用就报错 问题原因 设置中配置的clang-format插件工具路径不正确。 解决方案-亲测有效! 确认本地安装了clang-format工具:终端输入clang-format(也可能是clang-format-13等版本…

软件测试|MySQL CROSS JOIN:交叉连接的详细解析

简介 在 MySQL 数据库中,CROSS JOIN 是一种用于生成两个或多个表的笛卡尔积的连接方法。CROSS JOIN 不需要任何连接条件,它将左表的每一行与右表的每一行进行组合,从而生成一个包含所有可能组合的结果集。本文将详细介绍 MySQL 中的 CROSS J…

故事生成动漫解说视频,用Artflow AI做英语口语故事

大家好我是在看,记录普通人学习探索AI之路。 今天,我将再次为大家精心策划一个使用Artflow AI制作动漫解说视频的详尽教程,这个教程专为初学者设计。通过这款强大的Artflow AI工具,用户能够一键自动化完成从图像生成、视频剪辑到配…

性能测试LoadRunner解决动态验证码问题

对于这个问题,通常我们可以采取以下三个途径来解决该问题: 1、第一种方法,也是最容易想到的,在被测系统中暂时屏蔽验证功能,也就是说,临时修改应用,无论用户输入的是什么验证码,都…

【hcie-cloud】【21】容器详解【容器网络说明、容器存储说明、容器镜像说明、dockerfile详述、缩略词】【下】

文章目录 容器介绍,容器工作机制、容器常用命令说明容器网络容器网络简介容器常用网络类型 - Bridge容器常用网络类型 - Host容器常用网络类型 - None其他容器网络类型【Macvlan、Overlay、IPvlan】容器网络相关配置 容器存储容器中应用数据的存储容器持久化存储配置…

2024.1.8每日一题

LeetCode 回旋镖的数量 447. 回旋镖的数量 - 力扣(LeetCode) 题目描述 给定平面上 n 对 互不相同 的点 points ,其中 points[i] [xi, yi] 。回旋镖 是由点 (i, j, k) 表示的元组 ,其中 i 和 j 之间的距离和 i 和 k 之间的欧式…

Python - 深夜数据结构与算法之 Two-Ended BFS

目录 一.引言 二.双向 BFS 简介 1.双向遍历示例 2.搜索模版回顾 三.经典算法实战 1.Word-Ladder [127] 2.Min-Gen-Mutation [433] 四.总结 一.引言 DFS、BFS 是常见的初级搜索方式,为了提高搜索效率,衍生了剪枝、双向 BFS 以及 A* 即启发式搜索…

【办公技巧】Word中如何对齐选择题中的ABCD选项?

使用word文件制作试卷,如何将ABCD选项全部设置对齐?除了一直按空格或者Tab键以外,还有其他方法吗?今天分享如何将ABCD选项对齐。 首先,我们打开【替换和查找】,在查找内容输入空格,然后点击全部…

2024年工信部AI人工智能证书“计算机视觉工程师”证书报考中!

为进一步贯彻落实中共中央印发《关于深化人才发展体制机制改革的意见》和国务院印发《关于“十四五”数字经济发展规划》等有关工作的部署求,深入实施人才强国战略和创新驱动发展战略,加强全国数字化人才队伍建设,持续推进人工智能专业人员能…

视频做成二维码查看?多格式视频二维码生成器的使用方法

现在音视频是工作和生活中经常需要使用的一种内容表现形式,很多人都通过这种方式来查看视频内容,比如产品介绍、使用说明、安装教程等。通过一个二维码就可以来承载视频内容,与传统的方式相比拥有更快的内容传播速度,简化用户获取…

2023年全国职业院校技能大赛(高职组)“云计算应用”赛项赛卷⑧

2023年全国职业院校技能大赛(高职组) “云计算应用”赛项赛卷8 目录 需要竞赛软件包环境以及备赛资源可私信博主!!! 2023年全国职业院校技能大赛(高职组) “云计算应用”赛项赛卷8 模块一 …

创业只有破釜沉舟才能成功吗?2024个人创业做什么?2024普通人如何创业?

第一次创业必须零成本,千万别被那些砸锅卖铁、卖车卖房创业最后发了大财的鸡汤故事洗了脑,否则你一定会血本无归,妻离子散。 如果你要创业,请记住这组数据,全国能活过三年的创业公司只有10%,这10%不等于已经…

C# 自定义配置文件序列化生成+文件格式错误自动回档

文章目录 前言选择Xml简单的Xml使用测试用例简单的写简单的读简单的生成配置修改配置类测试用例运行结果对比 代码逻辑封装逻辑示意封装好的代码测试生成配置文件格式错误测试使用默认值覆盖来解决问题 配置文件人为修改错误如何解决解决方案代码测试用例运行结果 代码封装总结…

uni-app实现一键登录(企业版:因为获取手机号功能**目前针对非个人开发者**,所以个人开发者无法唤起获取手机号界面)

微信授权登录 用户在使用小程序时,其实已登录微信,其本质上就是:微信授权给小程序读取微信用户信息。 获取登录凭证(企业版) 前端:调用 wx.login() 接口获取登录凭证(code)。 后…

数据结构期末复习笔记

文章目录 数据结构期末复习第一章:数据结构绪论第二章:顺序表与单链表第三章:其它链表第四章:栈如何中缀转后缀后缀如何计算 第五章:队列第六章:串第七章:树的概念和遍历第八章:赫夫…

muduo网络库剖析——网络地址InetAddress类

muduo网络库剖析——网络地址InetAddress类 前情从muduo到my_muduo 概要socketaddr_in介绍成员用法 网络地址转换函数 框架与细节成员函数使用方法 源码结尾 前情 从muduo到my_muduo 作为一个宏大的、功能健全的muduo库,考虑的肯定是众多情况是否可以高效满足&…

在矩池云使用微调ChatGLM3-6B教程

今天给大家介绍下如何在矩池云使用ChatGLM3-6B模型。 1 简介 GitHub:https://github.com/THUDM/ChatGLM3 魔搭:https://modelscope.cn/models/ZhipuAI/chatglm3-6b/ ChatGLM3 是智谱AI和清华大学 KEG 实验室联合发布的新一代对话预训练模型。ChatGLM3…

租房别再傻傻的扯网线了!随身WiFi靠谱品牌推荐,哪个随身WiFi最好用

如果你是租房党,并且预算有限的话,拉网线太麻烦了,价格很贵,需要搬家的时候还要重新扯线,事儿很多。想买一个网速快,便捷的随身WiFi看电影、刷刷抖音、打打游戏,那一定一定要认真看完我这篇文章…