反着用scaling law验证数据:群聊场景指代消歧

本文作者:白牛

我们之前开源了 LLM 群聊助手茴香豆(以下简称豆哥),它的特点是:

  • 设计了一套拒答 pipeline,实用于群聊场景。能够有效抵抗各种文本攻击、过滤无关话题,累计面对 openmmlab 数千用户运行半年( 17 个群、7w 条群消息)。这个过程确认了 text2vec 模型更适合反着用
  • 工业级开源。除算法 pipeline 外,还实现对应的 android、web service, License 支持商用
  • 成本低。配合 LLM API 只需要 1.5G 显存

此外我们还工程优化了 ReRoPE,llama2 13B 在 A100 单卡上不训练,就可以从 8k 外推到 40k token。

上海AI Lab推出“茴香豆”:群聊场景中的领域知识助手

然而在群聊中,豆哥往往会遇到类似对话:

张三:mmpose 支持移动端部署么?
李四:搭车问一下,怎么把它部署到 TX2 ?
王二:你们说的是哪家的算法框架?

显然 “” 应该替换成 "mmpose",然而豆哥处理李四的问题时,不能直接输入所有人的对话,否则会影响 pipeline 精度;受成本约束,也不能每一句都消,所以整件事第一步是,判断应不应该消歧


项目链接:

https://github.com/internlm/huixiangdou

(文末点击阅读原文可直达,欢迎点亮小星星)


为了解决上述问题,我们使用的方法是手工标注 + SFT 优化 LLM,也就是 NLPer 常见地,用 LLM 优化下游 NLP 任务。

最终结果如上图,“0.5B 媲美 14B”。

绿色的是训练前的 precision 曲线,证明反反复复标一周没白干,确实能靠 scaling law 明确问题和训数据;

蓝色的是训练后的 F1 score 曲线。

  • 14B 的 recall 是最高的、能达到 92.11
  • 32B 的 F1 score 最高,到了85.58
  • 额外地,MoE-2.7B 涨了 +29.07,详见见 arXiv 里的表格
本文贡献是:
1.如何证明标注本身没有 bias ? 我们使用 scaling law 定义问题、确认标注可靠。
scaling law 是说数据内容不变,精度随参数量和训练数据量线性增大。
反过来想,取一组相同架构的 LLM(qwen 0.5~32B)不变,prompt 和数据标注变化。如果数据的精度表现,随模型体积而改善,那是不是证明了数据标得好 ?
当然这个 “标得好” 更多的是和 qwen 更契合,更容易 finetune、更适合 GPU-poor。


2.数据来自微信群聊——卷卷群(ncnn contributors group),我们开源了 2.3k 手工标注数据和对应的 LoRA weights,授权见末尾。


3.所有实验均可复现,trick 已在论文中注明。

1.数据准备

数据来源。选 ncnn 卷卷群是因为:

  • 群友背景复杂,当老板的打工的读书的都有、软件硬件女装啥都会。 AKA 数据范化性强。
  • ncnn 不是某个 team 维护的,大小事情是靠爱发电,导致平均群活跃高达 87 条/人月。

预处理。原始输入取了 58,000 条,直接标注能标死我。所以做了 concat 和 filter 两步预处理:一来是用户确实发 2 句话才讲 1 个事; 二来大部分内容也不是问题,豆哥并不关心陈述句。预处理后得到 2,302 句问题。

标注过程是个循环,不是手工标一次搞定的。

  • STEP1. 按指代消歧的定义构造 prompt,想清了问题再手动标
  • STEP2. 标好了用 7 个 vanilla LLM 跑精度
  • STEP3. 如果 precision 不随参数量增长,检查 prompt 和问题定义,看哪里没明确。重复 STEP1

如此重复 5 轮,得到 alpaca.json

2. 训练

参照知乎其他人的 finetune 经验, 2k 数据量上不了 further pretrain,fp16 的 SFT 也未必好。

虽然 LoRA 不靠谱,可听人劝吃饱饭。我们用的 axolotl,顺手发了个 typo PR。

第一轮 LoRA epoch=1,lr=2e-4,rank=64,4B F1 score 掉点 -12,其他模型都在涨。

想象中,4B 的 F1 score 应该在 62.9 到 69.22 之间。

那咋整?继续治疗呗..

我们尝试了 lr=2e-5;不同的 rank;换 LoRA+,也就改 lr 能让损失缩小到 -3。

注意缩小 lr 对其他模型(7B、1.8B、2.7B)都没用,并不是个可靠方法。

果然 LoRA 不靠谱,继续遍历参数已经没有意义。我们也尝试过全量微调,2 个 epoch 后模型会退化为下游 NLP 任务中的分类器,尽管 F1 score 高达 71.38,全量微调后的模型已经失去通用能力。

3. 结论

现在看来 base 模型和数据是可靠的,但训练方法不太行。

  • 检查 weight ,看训练方法为啥不行,即 4B 上 low-rank 前提被满足了多少?
  • 现在有个 recall 92 的模型,只是应用的第一步。我估计后面实用还都是坑 qaq。

附录

论文地址:https://arxiv.org/abs/2405.02817

alpaca 训练数据:https://huggingface.co/datasets/tpoisonooo/HuixiangDou-CR/tree/main

LoRA 14B 权重:https://huggingface.co/tpoisonooo/HuixiangDou-CR-LoRA-Qwen-14B

LoRA 32B 权重:https://huggingface.co/tpoisonooo/HuixiangDou-CR-LoRA-Qwen-32B

WanDb 实验记录:https://wandb.ai/tpoisonooo/huixiangdou-cr

复现步骤:https://github.com/InternLM/HuixiangDou/tree/main/sft

卷卷群隐私授权,我是群主我说了算(逃

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/9571.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python专题:六、循环语句(1)

补充知识 代码的注释 #描述性文字 阅读代码的人更好的理解代码 while循环语句 x<100条件控制语句&#xff0c;Totalx,Total自增加x&#xff0c;x1&#xff0c;x自增加1&#xff0c;x<100此条件满足时&#xff0c;执行while循环&#xff0c;当x101时&#xff0c;x101条…

# 从浅入深 学习 SpringCloud 微服务架构(十五)

从浅入深 学习 SpringCloud 微服务架构&#xff08;十五&#xff09; 一、SpringCloudStream 的概述 在实际的企业开发中&#xff0c;消息中间件是至关重要的组件之一。消息中间件主要解决应用解耦&#xff0c;异步消息&#xff0c;流量削锋等问题&#xff0c;实现高性能&…

【图像增强(空域)】基于直方图增强的图像增强及Matlab仿真

1. 摘要 图像的灰度直方图表示灰度图像中具有每种灰度像素的个数&#xff0c;反映了图像中每种灰度级出现的频率&#xff0c;是图像的基本统计特征之一。直方图均衡方法因为其有效性和简单性已成为图像对比度增强的最常用的方法。其基本思想是根据输入图像的灰度概率分布来确定…

【全开源】Java外卖霸王餐免费吃外卖小程序+APP+公众号+H5多端霸王餐源码

一、特色功能 霸王餐活动管理&#xff1a;允许商家发布和管理霸王餐活动&#xff0c;包括设置活动时间、具体优惠、活动规则等。用户参与与浏览&#xff1a;用户可以在小程序中浏览霸王餐活动列表&#xff0c;查看活动的详情信息&#xff0c;如商品或服务的免费赠送、活动规则…

原生微信小程序canvas签名功能

半个月前百度搜出来的&#xff0c;没存书签现在不知道是哪篇文章了&#xff0c;再搜也没搜出来那篇文章&#xff0c;还好当时把代码复制到本地跑了一下&#xff0c;现在再发csdn存一下。 sign.js Page({data: {ctx: null,width: null,height: null,drawCount: 0,drawState: &…

查找本机上的WIFI并查看密码。

在命令行模式下&#xff1a; 1。WIN 键 R&#xff0c;输入CMD&#xff0c;回车确认 2。在搜索框输入CMD&#xff0c;回车确认 以上的方法都可以打开命令行模式。也称终端&#xff0c;或者DOS模式。 查找本机上的WIFI密码&#xff0c;命令行如下&#xff1a; 首先&#xff…

汉诺塔问题和爬楼梯(递归)

感谢大佬的光临各位&#xff0c;希望和大家一起进步&#xff0c;望得到你的三连&#xff0c;互三支持&#xff0c;一起进步 个人主页&#xff1a;LaNzikinh-CSDN博客 c语言基础_LaNzikinh篮子的博客-CSDN博客 文章目录 一.爬楼梯问题二.汉诺塔问题总结 一.爬楼梯问题 假设你正…

Unity使用ToggleGroup对多个Toggle进行管理时,初始化默认选项失效的问题

问题描述&#xff1a; 在unity脚本的OnEnable中用代码设置Toggle集合中的其中一个对象的ison时&#xff0c;发现并没有根据设置发生变化。但是该Toggle的OnValueChange却发生过变化。 如果使用协程等待0.01s,那么对应组件的ison的修改才能生效&#xff0c;但是逐帧分析的话会发…

Elasticsearch:RBAC 和 RAG - 最好的朋友

作者&#xff1a;来自 Elastic Jeff Vestal 检索增强生成 (RAG) 通过提供额外的上下文或信息来增强大型语言模型 (LLM) 的知识&#xff0c;从而提高响应质量。 尽管 LLMs 拥有令人印象深刻的能力&#xff0c;但也有其局限性&#xff0c;例如无法在培训后保留新信息以及对不熟悉…

idea使用git不提示账号密码登录,而是输入token问题解决

idea 或者 webstream 等全家桶软件 使用git 推送代码时&#xff0c;不提示账号密码登录&#xff0c;而是输入token问题解决 你的代码仓库是gitlab 然后打开修改代码后推送时&#xff0c;会默认使用gitlab插件&#xff0c;所以提示数据token 解决方式就是把gitlab插件取消使用这…

ETL如何执行Java脚本

ETLCloud提供了执行 Java 脚本的方式&#xff0c;让用户能够灵活地处理数据并实现各种复杂的数据处理任务。 ETLCloud在数据处理领域的应用优势主要体现在以下几个方面&#xff1a; 灵活性&#xff1a;通过执行Java脚本&#xff0c;用户能够灵活定制数据处理逻辑&#xff0c;满…

监控异地组网怎么组网?

监控异地组网是指在不同地域的网络环境下&#xff0c;实现对监控设备的远程访问和管理。在传统的网络环境下&#xff0c;由于网络限制和设备配置等问题&#xff0c;监控设备的远程访问往往受到一定的限制和困扰。为了解决这个问题&#xff0c;引入了天联组网技术&#xff0c;实…

安卓开发--按键背景图片,按键其他属性,按键按键按下变色

前面已经介绍了一个空白按键工程的建立以及响应方式&#xff0c;可以参考这里&#xff1a;安卓开发–新建工程&#xff0c;新建虚拟手机&#xff0c;按键事件响应。 安卓开发是页面跳转是基础&#xff01;&#xff01;&#xff01;所以本篇博客介绍利用按键实现页面跳转&#…

添加对象方法

添加对象方法的方法如下&#xff0c;这是一个通用模式 注意灵活运用。

数据库调优-SQL语句优化

2. SQL语句优化 sql 复制代码 # 请问这两条SQL语句有什么区别呢&#xff1f;你来猜一猜那条SQL语句执行查询效果更好&#xff01; select id from sys_goods where goods_name华为 HUAWEI 麦芒7 魅海蓝 6G64G 全网通; ​ select id from sys_goods where goods_id14967325985…

Redis学习1——redis简介、基础

介绍 redis简介 Redis(Remote Dictonary Server) 是由Salvatore Sanfilippo开发的key-value缓存数据库&#xff0c;基于C语言开发。目前市面上&#xff0c;Redis和MongoDB是当前使用最广泛的NoSQL&#xff0c;而就Redis技术而言&#xff0c;它的性能十分优越&#xff0c;可以…

rngd: Error writing /dev/tpm0

检查数据库时发现messages中一直有rngd报错&#xff0c;rngd一直未配置&#xff0c;直接关闭了 /var/log/messages-20240414:Apr 11 04:59:49 hydb2 rngd: Error writing /dev/tpm0 /var/log/messages-20240414:Apr 12 07:31:39 hydb2 rngd: Error writing /dev/tpm0 /var/log…

shell-for循环语句练习题

1.计算从1到100所有整数的和 [rootlocalhost ~]# vim 1.sh #!/bin/bash sum0 #定义变量sum初始值为0 for i in {1..100} #for循环 i取值从1到100 do sum$[ isum ] #在每次循环中&#xff0c;变量i的值会依次取1到100的整数值。 #sum是一个累加器&#xff0c;初始值…

echarts自定义图例显示名称、数值、占比

先上代码 legend: {orient: vertical,left: 10,top:20,data: data,textStyle: {color: #9FB7D5 // 设置图例文字颜色为白色},// type: plain, // 设置图例类型为普通类型itemWidth: 10, // 设置图例项的宽度itemHeight: 10, // 设置图例项的高度formatter: function(name) {let…

Python专题:十、字典(2)

字典定义x{} get()函数 get&#xff08;参数一&#xff0c;参数二&#xff09; 参数一&#xff1a; 需要查找的关键词 参数二&#xff1a; 如果关键词不存在get返回的默认值 字典的更新 update&#xff08;&#xff09;函数&#xff0c;字典y的元素&#xff0c;去更新字…