定制一个自己的专属大模型最方便的步骤 ≈ 指定数据集 + 开源大模型 + 微调平台(如讯飞星辰Maas)
内容很开门!very goo( ̄▽ ̄)d!
下面我将演示如何用讯飞星辰Maas平台+甄嬛数据集构建Chat-嬛嬛。
Step1:注册讯飞星辰Maas
点击打开官网
讯飞星辰Maas平台 是一个模型微调的零代码平台,旨在简化模型微调过程,无需一行代码即可定制大模型!
Step2:拿到数据集
点我下载甄嬛数据集
具体的数据集格式会在后面介绍。
Step3:定制专属嬛嬛大模型!
按照流程走即可
-
点击【创建模型】
-
配置基础信息
-
点击【创建数据集】
-
配置数据集信息
-
导入我们的嬛嬛数据集!
-
提交任务!
耐心等待即可,大概需要10分钟左右的时间。
Step4: 创建应用
训练完成后,
点击跳转,创建应用
然后回到这个页面,点击发布为服务:
等待一会儿即可发布成功。
Step5:体验AI嬛嬛!
发布成功后,即可进行体验啦!
- 点击【体验】
- 选择之前的模型
到这里我们就完成了模型的定制,定制的模型具有以下优势:
数据集相关:
- 微调的数据集是定制大模型的关键
“真正复杂的工作都是在 收集数据,处理数据上,这些才是影响最后效果的最大难点问题。”
我们常见的微调数据集需要符合 Alpaca格式 ,以我们使用的嬛嬛数据集为例,其样本如下:
{"instruction": "小姐,别的秀女都在求中选,唯有咱们小姐想被撂牌子,菩萨一定记得真真儿的——","input": "","output": "嘘——都说许愿说破是不灵的。"
}
字段说明 :
instruction
:任务的指令,模型需要完成的具体操作,一般可以对应到用户输入的 Prompt 。
input
:任务所需的输入内容。若任务是开放式的,或者不需要明确输入,可以为空字符串。
output
:在给定指令和输入的情况下,模型需要生成的期望输出,也就是对应的正确结果或参考答案。
特点与应用 :结构简单清晰,易于理解和处理。它明确地将任务指令和输入内容分离开来,能够很好地适用于各种自然语言处理任务,像文本生成、翻译、总结等任务,尤其适合单轮的、以任务为导向的指令微调任务.
- 两类数据集格式: