说起AI大模型不得不说下机器学习的发展史,机器学习包括传统机器学习、深度学习,而大模型(Large Models)属于机器学习中的深度学习(Deep Learning)领域,具体来说,它们通常基于神经网络架构。
1.机器学习的发展史
机器学习技术的发展历程可以追溯到20世纪50年代,当时提出了感知机、神经网络等概念。80年代末期,反向传播算法的发明,给机器学习带来了希望,掀起了基于统计模型的机器学习热潮。21世纪以来,随着数据量的增加、计算能力的提升和算法的改进,机器学习技术进入了深度学习时代,取得了令人瞩目的成就。机器学习技术在很多领域都有应用,例如图像识别、自然语言处理、推荐系统等,为人类社会带来了巨大的价值和意义。
机器学习技术的发展可以分为以下几个阶段:
1. 早期阶段:上世纪50年代到70年代初期,机器学习被视为人工智能的一个子领域。这个阶段的主要方法是基于符号逻辑的推理和规则表达,例如专家系统、决策树等。1943年Warren McCulloch和Walter Pitts就提出首个神经网络模型,模拟神经元的工作方式。1949年Donald Hebb提出Hebbian学习理论,为神经网络学习奠定了基础。但1969年由于Marvin Minsky和Seymour Papert指出感知机的局限性,加之当时计算能力不足和数据稀缺限制了机器学习的发展,导致神经网络研究陷入低谷。
2. 统计学习阶段:20世纪80年代到90年代初期,机器学习开始采用统计学习方法,如最小二乘法、最大似然估计等。这个阶段的代表性算法包括神经网络、支持向量机、朴素贝叶斯等。但这个阶段是已统计学习为主的阶段,因为1990年开始神经网络因计算复杂性和理论限制再次遇冷,研究转向统计学习。
3.深度学习阶段:2006年以来,随着计算能力的提升和数据量的增加,深度学习开始崛起。深度学习是一种基于神经网络的机器学习方法,可以处理大规模、高维度的数据。深度学习的代表性算法包括卷积神经网络(CNN)、循环神经网络(RNN)、生成对抗网络(GAN)等。
4.现代发展阶段:自2017年Transformer架构的提出,一统深度学习领域的江湖之后,彻底改变了自然语言处理领域,BERT、GPT等模型相继问世。大规模预训练模型(如GPT-3、GPT-4)在多个任务上表现出色,推动了通用人工智能(AGI)的研究。强化学习、自监督学习、联邦学习等新兴方向快速发展。
5.未来趋势:研究如何让机器具备更广泛的智能,如AI与生物医学、量子计算的融合。确保AI技术的公平性、透明性和安全性。目前大模型还有更大的挑战这也是我们后边要说的局限性。
2.GPT大模型发展历程
大模型的发展,必然离不开GPT,为什么要说他,不仅他是现在最优秀的模型之一。还因为他验证了随着模型尺寸变大、学习的知识更多,模型的性能会大幅提升。这就是OpenAI 在 2020 年发表的论文《Scaling Laws for Neural Language Models》中提出了 Scaling Laws。虽然这篇论文在2020年提出,但当时却影响甚微。因为从GPT2开始部分闭源了,GPT3已经完全闭源,虽然在GPT3 中生成1750亿相比GPT2 1.7亿的参数有了100倍的能力提升,由于闭源,加之GPT只基于 Transformer 的解码器(Decoder-only)架构,没有编码器部分,行业内也并未有太大的影响。直到2022 年 11 月,OpenAI 发布了基于 GPT 模型的人工智能对话应用服务ChatGPT。ChatGPT沿用了InstructGPT的训练技术,并针对对话能力进行了优化。它结合了人类生成的对话数据进行训练,展现出丰富的世界知识、复杂问题求解能力、多轮对话上下文追踪与建模能力以及与人类价值观对齐的能力。ChatGPT还支持插件机制,扩展了功能,超越了以往所有人机对话系统的能力水平,引发了社会的高度关注。虽然GPT没有在技术上突破,但他用实践证明了scaling laws。从ChatGPT发布后,行业内多家巨头争相大知识量训练自家模型,也就短短几个月让模型学习全网人类几百年的知识。灌注了大量的知识后,再进行微调,人类对齐就产生现在的通用大模型。现在百模齐放,离不开GPT的贡献。OpenAI始终把创建安全、通用的大模型为自己的使命,他的成功有一定的偶然,但也是必然的。
3.大模型的发展局限性
大模型分为推理学习、数据学习,举个相似的例子,推理学习和数据学习就像数据与物理的关系,正在输出.....待完善!