一、商业观点:企业借助大模型获得业务增长可能
二、底层原理:transformer
1)备注
①下面每个步骤都是自回归的过程(aotu-regressive):已输出内容的每个字作为输入,一起生成下一个字
②合起来就是:y1输出之后,y1和x序列一起作为输出,来生成y2;y1和y2加x序列作为输入,来输出y3
③GPT3.5有1750亿参数,也就是1750亿维
2)运行步骤
①把一串输入的字符串拆分成x序列的结构
②再把这串x序列的输入字符串映射成z序列
(z序列是:z1、z2、z3、z4等,不一定必须是512维),每个z是512维坐标的向量,由512个坐标构成
③解码器
根据传入的z序列生成y序列
3)编码器框架图
①左边是编码器,右边是解码器
②输入有两个预处理
1)input Embedding:把每个字都变成512个字去描述
2)positionnal Encoding:不仅要把每个字换成512个描述,而是还要关注每个字的位置(也就是关注词的主谓宾)
③linear做类似线性回归的东西
④softmax:把前序所有的计算结果转化成概率数字,有了概率数字才会知道蹦出来的下个数字是什么
三、应用技术:fine tune
链接