GPT-4：论文阅读笔记

GPT-4的输入和输出：输入的内容是文本或图片，输出的内容是文本。因此，GPT-4是一种输入端多模态的模型。
GPT-4的效果：在真实世界中还是比不上人类，但是在很多专业性的任务上已经达到了人类的水平，甚至超过人类。例如GPT-4能够在所有考生中以前10%的成绩通过律师资格证考试（GPT-3.5只能排在末尾的10%）。
GPT-4的图片输入功能：GPT-4目公布的内容还不支持图片上传，这个属于内测功能。目前，OpenAI只选择了一家合作公司测试图片输入功能。
GPT-4的align过程：GPT-4用了六个月的时间进行Align。这里的Align一方面使得模型能够执行人类的指令，同时使得模型能够生成与人类三观一致并且安全有用的输出。Align的方法包括使用根据用户体验中不好的例子进行学习。OpenAI认为GPT-4是它们目前最好的模型，在安全性可控性等方面都有了很大的进步。
GPT-4的深度学习栈：OpenAI重建了深度学习栈（与微软云Azure一起），并且为了训练GPT-4重新设计了一个超级计算集群。一年前该集群也被用于训练GPT-3.5。在这次的训练中，他们修复了一些BUG，并发现训练过程非常稳定。
GPT-4的训练任务：GPT-4也是使用传统的语言模型任务进行训练的。
RLHF的作用：为了使得模型的回答能够与人类的意图保持一致，以及保持模型的安全可控。（或者说，RLHF就是为了对模型做控制，让模型更能够知道提问者的意图，并按照用户喜欢的方式进行作答）
预训练中的发现：OpenAI发现模型的能力好像就是从预训练的过程中获得的，RLHF并不能提高各种考试的成绩，有时还会使得成绩下降。
可预测的训练损失：OpenAI在GPT-4开始训练时，就知道最终的损失结果。这个损失结果是通过另一个小一万倍的数据集（但是方法相同）上训练的损失函数外推出来的。因为大模型的训练稳定性是非常重要的，所以这样的方法非常实用。
GPT-4更加理性：之前的大模型有一种情况，就是模型越大，其本身就越来越不理性。但是GPT-4克服了这个缺点。
GPT-4和GPT-3.5的能力对比：对于日常对话，GPT-4和GPT-3.5的差别不大。但是任务难度增加后，这个区别就体现出来了，GPT-4更加可靠且更加有创造力。
GPT-4的数学和文学不好：GPT-4的数学仍然不好。另外，GPT-4在语言学和文学的本身考试上能力也不够强，但是其生成的东西大多数是空话。
GPT-4与其他NLP大模型的对比：GPT-4在多个Benchmark数据集上的表现都明显高于之前的其他语言模型，而且是大幅度碾压。
GPT-4与其他CV大模型的对比：GPT-4的图像输入表现也不错，但是比不上GPT-4在NLP的效果。
GPT-4的多语言性能：GPT-4在英语上的性能最好，中文也有不错的结果。另外，GPT-4在不同语言的性能与使用语言的人数没有直接关系。
GPT-4的System Message功能：让GPT-4扮演一个指定的角色，由此确定与用户对话时的语气语调。
GPT-4的安全性：GPT-4的安全性已经显著提高了，相较于GPT-3.5提高了40%。另外，GPT-4通过自己提升安全性：在RLHF的过程中设置了一个奖励信号，根据预训练好的模型创建一个分类器，判断一个回答是否是敏感的、有危险的和不应该回答的，从而提升自身的回答安全性。
GPT-4的限制：GPT-4的训练数据截至时间到2021年的9月份（尽管在后续的过程中可能会使用新的数据更新模型）。另外，GPT-4容易受到用户的欺骗。
GPT-4的置信度：在经过RLHF之前，GPT-4对回答内容的置信度和答案本身的正确可能性基本上是对齐的。但是，经过RLHF之后，模型的校准明显下降了很多。
GPT-4的文本长度：GPT-4的文本长度是8192个Token，这个相较于之前的模型已经是非常长的了。另外，GPT-4还有一个32768个Token长度的版本。
GPT-4的一种图像生成方法：先让GPT-4根据指定的描述生成代码，然后运行代码得到图片。GPT-4通过这种方式可以生成图像，但是都是比较初级的图像。