LLM大模型工程师面试经验宝典--进阶版2(2024.7月最新)

目录

1 大模型怎么评测?

2 大模型的honest原则是如何实现的?模型如何判断回答 的知识是训练过的已知的知识,怎么训练这种能力?

3 如何衡量大模型水平?

4 大模型评估方法 有哪些?

5 大模型评估工具 有哪些?

6 训练大模型找数据集哪里找?

7 微调需要多少条数据?

8 有哪些大模型的训练集?

9 进行领域大模型预训练应用哪些数据集比较好?

10 如何选取和构建大模型微调数据?


1 大模型怎么评测?

        当前superGLUE, GLUE, 包括中文的CLUE 的benchmark都在不太合适评估大模型。可能评估推理能 力、多轮对话能力是核心。

2 大模型的honest原则是如何实现的?模型如何判断回答 的知识是训练过的已知的知识,怎么训练这种能力?

        大模型需要遵循的helpful,honest, harmless的原则。 可以有意构造如下的训练样本,以提升模型准守honest原则,可以算trick了: 微调时构造知识问答类训练集,给出不知道的不回答,加强honest原则; 阅读理解题,读过的要回答,没读过的不回答,不要胡说八道。

3 如何衡量大模型水平?

        要评估一个大型语言模型的水平,可以从以下几个维度提出具有代表性的问题。

理解能力:提出一些需要深入理解文本的问题,看模型是否能准确回答。

语言生成能力:让模型生成一段有关特定主题的文章或故事,评估其生成的文本在结构、逻辑和语 法等方面的质量。

知识面广度:请模型回答关于不同主题的问题,以测试其对不同领域的知识掌握程度。这可以是关 于科学、历史、文学、体育或其他领域的问题。一个优秀的大语言模型应该可以回答各种领域的问 题,并且准确性和深度都很高。

适应性:让模型处理各种不同类型的任务,例如:写作、翻译、编程等,看它是否能灵活应对。

长文本理解:提出一些需要处理长文本的问题,例如:提供一篇文章,让模型总结出文章的要点, 或者请模型创作一个故事或一篇文章,让其有一个完整的情节,并且不要出现明显的逻辑矛盾或故 事结构上的错误。一个好的大语言模型应该能够以一个连贯的方式讲述一个故事,让读者沉浸其 中。

长文本生成:请模型创作一个故事或一篇文章,让其有一个完整的情节,并且不要出现明显的逻辑 矛盾或故事结构上的错误。一个好的大语言模型应该能够以一个连贯的方式讲述一个故事,让读者 沉浸其中。

多样性:提出一个问题,让模型给出多个不同的答案或解决方案,测试模型的创造力和多样性。

情感分析和推断:提供一段对话或文本,让模型分析其中的情感和态度,或者推断角色间的关系。

情感表达:请模型生成带有情感色彩的文本,如描述某个场景或事件的情感、描述一个人物的情感 状态等。一个优秀的大语言模型应该能够准确地捕捉情感,将其表达出来。

逻辑推理能力:请模型回答需要进行推理或逻辑分析的问题,如概率或逻辑推理等。这可以帮助判 断模型对推理和逻辑思考的能力,以及其在处理逻辑问题方面的准确性。例如:“所有的动物都会 呼吸。狗是一种动物。那么狗会呼吸吗?”

问题解决能力:提出实际问题,例如:数学题、编程问题等,看模型是否能给出正确的解答。

道德和伦理:测试模型在处理有关道德和伦理问题时的表现,例如:“在什么情况下撒谎是可以接 受的?”

对话和聊天:请模型进行对话,以测试其对自然语言处理的掌握程度和能力。一个优秀的大语言模 型应该能够准确地回答问题,并且能够理解人类的语言表达方式。

4 大模型评估方法 有哪些?

        人工评估:LIMA、Phoenix

        使用 GPT-4 的反馈进行自动评估:Vicuna、Phoenix、Chimera、BELLE指标评估(BLEU-4、 ROUGE分数):ChatGLM-6B;对于像ROUGE-L分数的指标评估,有些地方称其为非自然指令评 估(Unnatural Instruction Evaluation)。

        Chatbot Arena:目前用来衡量一个模型好不好的东西基本都是基于一些学术的benchmark,比如 在一个某个NLP任务上构建一个测试数据集,然后看测试数据集上准确率多少。

        然而,这些学术 benchmark(如HELM)在大模型和聊天机器人上就不好用了。其原因在于: 由于评判聊天机器人聊得好不好这件事是非常主观的,因此,现有的方法很难对其进行衡 量。 这些大模型在训练的时候就几乎把整个互联网的数据都扫了一个遍,因此,很难保证测试 用的数据集没有被看到过。甚至更 进一步,用测试集直接对模型进行「特训」,如此一来表现必 然更好。 理论上我们可以和聊天机器人聊任何事情,但很多话题或者任务在现存的benchmark里 面根本就不存在。 因此,Chatbot Arena 的做法是放弃benchmark,通过对抗,实时聊天,两两比对人工进行打分,采用 elo分数进行评测。

5 大模型评估工具 有哪些?

        OpenAI evals:OpenAI的自动化评估脚本,核心思路就是通过写prompt模版来自动化评估。

        PandaLM:其是直接训练了一个自动化打分模型,0,1,2三分制用模型对两个候选模型进行打分

6 训练大模型找数据集哪里找?

推荐Alpaca-COT,数据集整理的非常全,眼花缭乱。

7 微调需要多少条数据?

        取决于预训练数据和微调任务的数据分布是否一致,分布一致,100条就够,分布差异大就需要多些数 据,千条或者万条以上为佳。

         自己的任务复杂或者下游任务行业比较冷门,如药品名称识别任务,则需要较多监督数据。还有微调大 模型时,一遍是记不住的。100条的微调数据,epochs=20才能稳定拟合任务要求。

8 有哪些大模型的训练集?

        预训练数据集togethercomputer/RedPajama-Data-1T「红睡衣」开源计划总共包括三部分: 1. 高质量、大规模、高覆盖度的预训练数据集; 2. 在预训练数据集上训练出的基础模型; 3. 指令调优数据集和模型,比基本模型更安全、可靠。 预训练数据集RedPajama-Data-1T已开源,包括七个子集,经过预处理后得到的token数量大致可以匹 配Meta在原始LLaMA论文中报告的数量,并且数据预处理相关脚本也已开源。 完整的RedPajama-Data-1T数据集需要的存储容量为压缩后3TB,解压后5TB。 CoT微调数据集:Alpaca-CoT 里面包括常用的alpaca,CoT等数据集,有中文的。

9 进行领域大模型预训练应用哪些数据集比较好?

        通过分析发现现有的开源大模型进行预训练的过程中会加入数据、论文等数据。主要是因为这些数据的 数据质量较高,领域相关性比较强,知识覆盖率(密度)较大,可以让模型更适应考试。给我们自己进 行大模型预训练的时候提供了一个参考。同时领域相关的网站内容、新闻内容也是比较重要的数据。

10 如何选取和构建大模型微调数据?

1. 动机:在 微调大模型时,首先需要解决的问题是“选取和构建大模型微调数据”,那如何选择呢?

2. 问题一:什么样的 数据 才是 最优的 大模型微调数据?

3. 数据的多样性:

        一般情况下我们数据的分布都是符合一个长尾分布的。主要的几个类别数据占据了90%的数据量,剩下 的90%的类别只有10%的数据量。 举个栗子:小红书上,query的意图识别里,美食,穿搭,旅游攻略类非常多,但是还有一些同学去搜 大模型微调的数据技巧。

        如果说我们直接采样一批线上的图文文本,直接送给标注的话,会存在一个严重的问题:他们标注的数 据大部分都是攻略类,技术类比较少,标了3个月才攒了几千条大模型技术文本,但是攻略类已经成几万 了。

        这样搞肯定是不行的,人力成本方面的消耗是在是太大了,并且模型因为数据平衡的问题也没有特别好

1. 数据的标注质量;

2. 数据的不确定性;

3. 问题二:如何构建 大模型微调数据?

        方法一:“self-instruct”的框架,通过自我生成来提升指令跟随能力。文章的流程是从语言模型中生 成指令、输入和输出样本,然后在使用这些数据微调原始模型之前进行清洗。

        方法二:“主动学习” .主动学习有两个基本原则,在监督训练的时候,注意主动发现数据的两个方面,一个是数据多样性,另 外一个是数据的不确定性。这样讲是比较抽象的概念,那我们在大模型实践中如何体现呢?

第一,数据的多样性。 多样性即为数据的去重,去重这件事的核心是相似度度量,现在的相似度度量方法大家用的比较多的是 基于对比学习构造的语义向量这套思路,当然简单的基于词袋或者tfidf的方案也是可以的。有了核心的 相似度度量方法后,我们可以使用简单的onepass聚类方法进行过滤,考虑复杂一点的话,我们可以使 用带优化目标的聚类:比如K-Center-Greedy算法,其约束条件是在最大化多样性的情况下,使指令数 据集最小。

另外,如果我们已经有了一批已经去重的人工处理过的高质量数据,那么我们如何寻找与这批数据不一 样的数据呢?

        这里有一个非常简单实用的方案,并且这个方案可以用在很多其他的地方。 我们简单地把已有的数据全部当成正样本打上1,然后待筛选的数据全部当成负样本打上0,我们使用 deberta等构建二分类模型,并进行K-fold的交叉验证,在交叉验证过程中,选出每一个fold过程中的测 试集合里概率接近于0的样本。 通过这样的操作,就能把长得与已有数据不一样的数据给选出来了,并且这个过程是半监督的。

        这套方案也可以用在很多其他地方,比如数据质量选择,只要我们有一批已经确定标签/结果/标注的种 子数据,就能通过这样的方法选出与种子数据长得比较像的,长得不像的。

        第二,数据的不确定性。 数据的不确定性主要体现数据的质量筛选上,选取模型学的不那好的数据,模型没有把握的数据。 最简单的,我们可以选出模型对应PPL值比较差的那批数据。如果是指令数据的话,比如大模型做题和 对应的答案。我们可以把所有选项对应的概率之和计算出来,然后过滤出概率和比较低的那一批数据, 这批数据就是模型“不太肯定”的样本,我们需要加强针对性的训练。

        当然这样可能有一个副作用,就是这批数据是质量比较差而不是模型学的不太好的。

为此,我们还要借助reward model,这个reward model是广义的,他是一个质量的二分类模型。可以 祭出我们的deberta,继续用标注数据进行做二分类,进行数据质量的判断。

有了质量打分模型后,我们就可以判断一些指令数据的质量高低,并且据此选出模型真正不确定的数 据。

这个过程类似于手动的拒绝采样,核心是选择“模型不确定”+“数据质量达标”的那部分数据。

        总结一下:监督学习中主动学习的两个基本原则是寻找多样性的数据,模型不确定性的数据,在寻找 的过程中,我们使用了一些小技巧,比如聚类去重,对抗半监督过滤,自建reward二分类等方 法。这几个小技巧,学术上没有什么高深莫测的东西,都是实践中总结出来的好用的方法。

LLM面试宝典进阶版1:http://t.csdnimg.cn/g78gf

LLM面试宝典基础版:http://t.csdnimg.cn/MMLPY

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/39244.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

解锁数据资产的无限潜能:深入探索创新的数据分析技术,挖掘其在实际应用场景中的广阔价值,助力企业发掘数据背后的深层信息,实现业务的持续增长与创新

目录 一、引言 二、创新数据分析技术的发展 1、大数据分析技术 2、人工智能与机器学习 3、可视化分析技术 三、创新数据分析技术在实际应用场景中的价值 1、市场洞察与竞争分析 2、客户细分与个性化营销 3、业务流程优化与风险管理 4、产品创新与研发 四、案例分析 …

Python处理Excel文件的实用技巧使用详解

概要 在数据分析和处理的过程中,Excel 是一种广泛使用的数据存储和交换格式。Python 提供了多个强大的库来处理 Excel 文件,如 pandas、openpyxl 和 xlrd 等。本文将详细介绍如何使用这些库进行 Excel 文件的常用操作,包括读取、写入、修改和格式化等。 使用 pandas 处理 E…

仪器校准的概念与定义,计量校准是什么?

仪器校准的定义,在之前所颁布的《国际计量学词汇 基础和通用概念及相关术语》文件中,已经有了明确说明,而该文件做了修改以后,在后续新的定义中,仪器校准具体被分为两部分,第一步是将被计量仪器和计量校准的…

数据库测试数据准备厂商 Snaplet 宣布停止运营

上周刚获知「数据库调优厂商 OtterTune 宣布停止运营」。而今天下班前,同事又突然刷到另一家海外数据库工具商 Snaplet 也停止运营了。Snaplet 主要帮助开发团队在数据库中生成仿真度高且合规的测试数据。我们在年初还撰文介绍过它「告别手搓!Postgres 一…

vue3中若v-model绑定的响应字段出现三级,该如何实现rules验证规则

比如以下内容: 配置的rules内容 const rulesref({title:[{required:true,message:"请输入标题",trigger:"blur"},{max:50,message:"最大不能超过256个字",trigger:"blur"}],Category:[{required:true,message:"请选择…

竹云位居首位 |沙利文《2024年全球及中国IAM中间件市场报告》正式发布

7月2日,弗若斯特沙利文(Frost & Sullivan,以下简称“沙利文”)正式发布《2024年全球及中国IAM中间件市场报告》(以下简称“报告”),从行业背景、市场规模、驱动因素、发展趋势等维度阐述当前…

让采购和工程师们既爱又恨的任务——BOM

在项目研发与生产过程中,有一个常常让采购经理和工程师们既爱又恨的任务,那就是整理BBOMB。BOM作为连接设计与制造的桥梁,其重要性不言而喻,它详细列出了产品构成所需的所有零部件、材料及其规格、数量,是成本估算、采…

自然语言处理:第四十一章 解读大模型的参数

文章链接:7B?13B?175B?解读大模型的参数 (qq.com) 写在前面: 笔者更新不易,希望走过路过点个关注和赞,笔芯!!! 写在前面: 笔者更新不易,希望走过路过点个关注和赞,笔芯!!! 写在前面: 笔者更新…

C++ | Leetcode C++题解之第191题位1的个数

题目: 题解: class Solution { public:int hammingWeight(uint32_t n) {int ret 0;while (n) {n & n - 1;ret;}return ret;} };

清新简约卡片风格蓝紫渐变色短视频苹果CMS模板

首途第三十三套清新简约卡片风格蓝紫渐变色短视频模板,一套苹果CMSV10主题。 这套主题是简约风格,以纯洁的白色和深邃的紫色为主色调,为您提供了一种清新、时尚的浏览体验。 在这个简洁而美丽的界面中,您可以轻松畅享各种精彩短…

KUKA机器人不同运行方式

KUKA机器人有以下四种运行方式: 1、手动慢速运行(T1) 2、手动快速运行(T2) 3、自动运行(AUT) 4、外部自动运行(AUT EXT) 将示教器上的钥匙向右旋转,就会…

对原生textarea加上:当前输入字数/最大输入字数

源码: <!DOCTYPE html> <html lang"en"> <head> <meta charset"UTF-8"> <meta name"viewport" content"widthdevice-width, initial-scale1.0"> <title>Textarea Character Counter with Dragga…

python中对于函数中参数的详解

函数中参数时候很重要的&#xff0c;不仅仅是我们常用的一些必填参数&#xff0c;可缺省参数&#xff0c;还包括一些&#xff0c;关键字参数等&#xff0c;这边主要是自己一些学习心得~ 1.必填参数 顾名思义必填参数就是调用函数的时候必须传入的参数 def func1(a)&#xff1…

20240701给NanoPi R6C开发板编译友善之臂的Android12系统

20240701给NanoPi R6C开发板编译友善之臂的Android12系统 2024/7/1 14:19 本文采取这个模式编译&#xff1a;11.6.3 编译Android Tablet版本(首次编译) echo "ROCKCHIP_DEVICE_DIR : device/rockchip/rk3588/nanopi6" > .rockchip_device.mk # export INSTALL_GAP…

日志以及日志封装

日志 输出日志信息 import logging# 调用 指定级别 输入日志信息 logging.debug("this is a debug") logging.info("this is a info") logging.warning("this is a warning") logging.error("this is a error") logging.critical(&qu…

阿里云再次突发故障,高可用形同虚设?

作者&#xff1a;IT邦德 中国DBA联盟(ACDU)成员&#xff0c;10余年DBA工作经验&#xff0c; Oracle、PostgreSQL ACE CSDN博客专家及B站知名UP主&#xff0c;全网粉丝10万 擅长主流Oracle、MySQL、PG、高斯及Greenplum备份恢复&#xff0c; 安装迁移&#xff0c;性能优化、故障…

【UE 网络】多人游戏开发时应该如何区分客户端逻辑和服务端逻辑 入门篇

目录 0 引言1 服务器和客户端逻辑1.1 服务器职责1.2 客户端职责 2 函数会在客户端执行还是服务端&#xff1f;2.1 只在客户端执行的函数RepNotifyClient RPCMulticast RPC 2.2 只在服务端执行的函数GameModeServer RPC 2.3 在两端都可以执行的函数GetNetMode() 和 HasAuthority…

用C#的MediaDevices程序集打开MTP设备(用usb线连接的手机)的文件夹

一、任务描述 1、可以访问MTP设备的桌面程序。 MTP设备&#xff1a;支持媒体传输协议(MTP)的设备&#xff0c;MTP简单来说就是一种PC与其他设备相连的一种协议&#xff0c;智能手机、平板电脑、数码相机等可以通过 USB 连接到电脑&#xff0c;并通过 MTP 协议传输媒体文件。点…

PLC_博图系列☞F_TRIG:检测信号下降沿

PLC_博图系列☞F_TRIG&#xff1a;检测信号下降沿 文章目录 PLC_博图系列☞F_TRIG&#xff1a;检测信号下降沿背景介绍F_TRIG&#xff1a; 检测信号下降沿说明参数示例 关键字&#xff1a; PLC、 西门子、 博图、 Siemens 、 F_TRIG 背景介绍 这是一篇关于PLC编程的文章&a…

Swift中的二分查找:全面指南

Swift中的二分查找&#xff1a;全面指南 简介 二分查找是计算机科学中的经典算法&#xff0c;被广泛用于在已排序的数组中高效地搜索目标值。与线性查找逐个检查每个元素不同&#xff0c;二分查找不断将搜索区间减半&#xff0c;因此在处理大数据集时要快得多。 在这篇博客中…