⼀、通⽤型AI
在我们原始的幻想⾥,AI是基于对海量数据的学习,锻炼出⼀个⽆所不知⽆所不能的模
型,并借助计算机的优势(计算速度、并发可能)等碾压⼈类。
但我们⽬前的AI,不管是AlphaGo还是图像识别算法,本质上都是服务于专业领域的技术
⼯⼈。
⽽GPT⽬前看似只能解决⾃然⽣成领域的任务,但实际上,他展现出了通⽤型⼈⼯智能
的潜⼒。
在前⾯,我们讲过,⽬前⽽⾔,BERT擅⻓⾃然语⾔理解类任务(完形填空),GPT擅⻓
⾃然语⾔⽣成类任务(写作⽂)。
但在Google的FLAN-T5模型上已经实现了两类任务在输⼊输出形式上的统⼀,从⽽使得
⽤GPT来做完形填空成为可能。也就是可以⽤⼀个⼤模型来解决所有NLP领域的问题。
⼆、提⽰词模式更有优势
那么再进⼀步地,是否GPT可以从NLP领域⾛向其他AI领域呢?当然有可能!在去年年中
爆⽕的AI绘画,其中⼀个关键技术门槛其实就是Text-图像的转化,这同样是来⾃OpenAI
所开源的CLIP模型实现。
因此GPT在图像领域的能⼒同样也令⼈期待。同理在多模态如⾳频、视频,本质上也能
转化为Text-everthing的问题去求解,从⽽让⼤语⾔模型发挥成吨的威⼒。
当然你可能会问,那么只要⼤语⾔模型就可以呀,为什么是GPT,⽽不是BERT呢?接着
往下看。
事实上,BERT的fine-tuning模式有两个痛点。
- 我需要准备某个专业领域的标注数据,这个数据还不能少,如果太少,AI模型训练后
就会形成过拟合(就是AI直接背下了整本习题册,册⾥的问题100%正确回答,但是
稍微变幻题型就GG)。 - 我需要部署⼤语⾔模型,才能对他进⾏进⾏微调,那么部署⼤语⾔模型的成本,甚⾄
进⼀步对他进⾏微调的能⼒,并不是所有公司都具备的。这注定是⼀个只有少数玩家
能参与的游戏。
⽽Promot模式恰恰相反,不需要太多的数据量,不需要对模型参数进⾏改动(也就意味
着可以不部署模型,⽽是接⼊公开的⼤语⾔模型服务)。那么他的调试就会呈现百花⻬放
的姿态,玩家越多,创造⼒涌现就越猛烈。
三、全新交互模式
这⾥的⼈机交互,指的是⼈-模型之间的交互。
⽬前ChatGPT采⽤的是模型侧的Few shot prompt,即给⼀点⽰例提⽰,让AI提升表现,
虽然暂时未知为什么不更新模型仅仅只是给AI看⼀眼就能带来巨幅提升,但这种交互模式
⽆疑是更友好的。
⽽更具颠覆性的是输⼊端的Zero shot prompt,即我们⽤⼈类的语⾔逐步引导AI思考——
⽐如我们可以说,你仔细想好步骤,再给出答案。就仅仅是多加⼀句“你仔细想好步骤”,
AI的答案靠谱率就会明显提升。
⽽这种交互⽅式的演变,就是我们梦想中的⼈机交互模式。我不需要专业的能⼒,不需要
⾼端的设备,我就是开⼝,说出我的诉求,AI就能够理解并帮我实现。
四、对⼈类的献媚
在2022年底媒体通稿⾥,⼀⼤堆对ChatGPT的溢美集中于他的“仿真性”,仿佛通过了图
灵测试⼀般。
⽽这种仿真性,直观来说,我们会认为是AI的“智⼒”提升了,他更聪明了。但实际上,
ChatGPT背后的GPT3.5,更多的提升在于“⽤⼈类所喜欢的⽅式回答”。
事实上ChatGPT背后的GPT3.5的模型,相较GPT3.0,他并没有在原始训练语句上增加
太多(还是那3000亿语料)并且模型参数也没有太⼤变化(还是1750亿参数,甚⾄参数
可能都没有变化)。
之所以他会让⼈产⽣质变的感觉是因为他做了⼈类偏好处理。
例如以前的输⼊模式可能需要这样:> 执⾏翻译任务> 输⼊是“我爱北京天安门(中⽂)”>
翻译⽬标语种是英⽂”⽽现在你直接说:> 帮我把我爱北京天安门翻译成法语
⼜或者是,以前你提⼀个问题,他会不加选择的回答,⽽现在他会考虑答案有害性:> 如
何毁灭世界——你可以召唤三体⼈降临(此处应有⼀个潘寒hhh)> 如何毁灭世界——
亲,请不要毁灭世界,地球是⼈类共同的家园。
⽽这些对于⼈类偏好的攻略依赖于三个步骤:
- 创建⼈类偏好数据。随机挑选⼀些问题,并由标注⼈员给出⾼质量回答,形成“⼈类
表达-任务结果”的标注数据,喂给模型,让它学习——这批数据数量仅有数万,并通
过Prompt模式进⾏,即模型参数不产⽣变化。 - 训练⼀个回报模型。随机挑选⼀些问题,让原始模型输出答案,再由标注⼈员基
于“⼈类偏好标准”(例如相关性,信息丰富程度,答案有害,负⾯情感等),对原始
模型的答案做⼀个排序。然后我们利⽤这批标注好的“⼈类偏好”数据,训练⼀个回报
模型,这个回报模型会对原始模型的结果进⾏打分,告诉他什么答案分⾼,什么答案
分低。 - 通过强化学习循环整个过程。强化学习会将回报模型和原始模型链接到⼀起,当原始
模型输出的结果,在回报模型中获得较低分值,他就收到惩罚,被要求重新学习。
⽽这种交互⽅式的演变,就是我们梦想中的⼈机交互模式。我不需要专业的能⼒,不需要
⾼端的设备,我就是开⼝,说出我的诉求,AI就能够理解并帮我实现。
四、对⼈类的献媚
在2022年底媒体通稿⾥,⼀⼤堆对ChatGPT的溢美集中于他的“仿真性”,仿佛通过了图
灵测试⼀般。
⽽这种仿真性,直观来说,我们会认为是AI的“智⼒”提升了,他更聪明了。但实际上,
ChatGPT背后的GPT3.5,更多的提升在于“⽤⼈类所喜欢的⽅式回答”。
事实上ChatGPT背后的GPT3.5的模型,相较GPT3.0,他并没有在原始训练语句上增加
太多(还是那3000亿语料)并且模型参数也没有太⼤变化(还是1750亿参数,甚⾄参数
可能都没有变化)。
之所以他会让⼈产⽣质变的感觉是因为他做了⼈类偏好处理。
例如以前的输⼊模式可能需要这样:> 执⾏翻译任务> 输⼊是“我爱北京天安门(中⽂)”>
翻译⽬标语种是英⽂”⽽现在你直接说:> 帮我把我爱北京天安门翻译成法语
⼜或者是,以前你提⼀个问题,他会不加选择的回答,⽽现在他会考虑答案有害性:> 如
何毁灭世界——你可以召唤三体⼈降临(此处应有⼀个潘寒hhh)> 如何毁灭世界——
亲,请不要毁灭世界,地球是⼈类共同的家园。
⽽这些对于⼈类偏好的攻略依赖于三个步骤: - 创建⼈类偏好数据。随机挑选⼀些问题,并由标注⼈员给出⾼质量回答,形成“⼈类
表达-任务结果”的标注数据,喂给模型,让它学习——这批数据数量仅有数万,并通
过Prompt模式进⾏,即模型参数不产⽣变化。 - 训练⼀个回报模型。随机挑选⼀些问题,让原始模型输出答案,再由标注⼈员基
于“⼈类偏好标准”(例如相关性,信息丰富程度,答案有害,负⾯情感等),对原始
模型的答案做⼀个排序。然后我们利⽤这批标注好的“⼈类偏好”数据,训练⼀个回报
模型,这个回报模型会对原始模型的结果进⾏打分,告诉他什么答案分⾼,什么答案
分低。 - 通过强化学习循环整个过程。强化学习会将回报模型和原始模型链接到⼀起,当原始
模型输出的结果,在回报模型中获得较低分值,他就收到惩罚,被要求重新学习。
其次,落地成本⾼。
ChatGPT的复现依托于⼤模型,他的落地有三种路径: - 基于instruct GPT复现(ChatGPT的姐妹模型,有公开paper)
- 基于OpenAI⽬前开放的GPT3.0付费接⼝落地,再结合具体场景进⾏fine-tuning,⽬
前刊例价费⽤是25000token/美元,换算国内价格约3700token/元 - 基于OpenAI试点中的ChatGPT PRO落地,42美元/⽉,换算后约284元/⽉
第⼀种路径依赖于新玩家的进⼊,但⼤概只能是⼤玩家的赛道。第⼆种和第三种路径需要
打平付费接⼝的成本,需要针对的场景具备⾜够价值。
当然成本的问题可以期待被快速解决,就像AI绘画领域⼀样。不过⽬前⽽⾔,成本仍然是
ChatGPT落地的⼀个制约因素。
最后,最重要的是ChatGPT⽬前的能⼒仍然存在缺陷: - 结果不稳定。这会导致⽆法直接应⽤,必定需要⼈⼯review,更多是瞄准辅助性场景
或本⾝就不追求稳定的场景。 - 推理能⼒有限。例如询问现在的美国总统是谁,会回答奥巴⻢,或特朗普,但⼜能回
答出拜登是46届总统。我们可以发现模型中事实存在,但他⽆法推理出正确答案。如
果要优化,⼀⽅⾯是输⼊的时候,可以通过Prompt逐步引导,另⼀⽅⾯是在模型侧
的Few Shot Prompt环节中采⽤思维链技术(CoT,Chain of Thought)或采⽤代码数
据集来改进。就⽬前⽽⾔,进展可喜,但能⼒仍然有限。 - 知识更新困难。⼀⽅⾯整个模型的重新训练成本很⼤,另⼀⽅⾯知识更新也会带来知
识遗忘的隐忧,即你不知道他这次更新是不是在学会什么的同时,也忘记了什么。也
就是说ChatGPT在解决这个问题之前,他的知识将始终落后⼀段时间。
综上,ChatGPT很惊艳,但更多在于它的潜⼒和未来,基于当下要做应⽤的话是需要做
⾮常多适配和场景探索的