文章目录
- 大模型简介
- 什么是大模型
- GPT大语言模型发展
- 大语言模型对话产品
- 大模型怎么用
大模型简介
什么是大模型
大模型,全称「大语言模型」,英文「Large Language Model」,缩写「LLM」。是具有大量参数和复杂结构的机器学习模型。大模型通常具有数亿到数千亿个参数,在大量的文本或其他数据上进行训练,这些数据包括网络上的文章、书籍、对话等,以便模型能够学习广泛的知识和语言模式。
GPT大语言模型发展
我们从 gpt 的诞生开始说起,在往之前的就不追溯了
gpt-1 发布于 2018年6月,基于 Transformer 架构,包含 12 层 Transformer 解码器。有 1.17 亿个参数。
gpt-2 发布于 2019年11月,与GPT-1类似,但规模更大,有15亿个参数
GPT-3 发布于2020年6月,扩展了GPT-2的架构,有1750亿个参数
GPT-3.5 发布于2022年3月,在训练数据量计算资源方面都有所增加,处理复杂问题和理解上下文方面表现的更好,生成的输出表现出更少的错误和更高的一致性,更具有通用性。同年11月30日,基于GPT-3.5推出了ChatGPT聊天机器人程序,一个具有划时代意义的产品,
GPT-4 发布于 2023年3月,理解和推理能力增强,在复杂推理、逻辑分析和上线文理解方面有了更好的表现,增加了多模态能力。
Sora 发布于2024年2月,一款文生视频大模型
大语言模型对话产品
国家 | 公司 | 对话产品 | 旗舰大模型 | 网址 |
---|---|---|---|---|
美国 | OpenAI | ChatGPT | GPT | https://chatgpt.com/ |
美国 | Microsoft | Copilot | GPT 和未知 | https://copilot.microsoft.com/ |
美国 | Gemini | Gemini | https://gemini.google.com/ | |
美国 | Anthropic | Claude | Claude | https://claude.ai/ |
中国 | 百度 | 文心一言 | 文心 | https://yiyan.baidu.com/ |
中国 | 阿里云 | 通义千问 | 通义千问 | https://tongyi.aliyun.com/qianwen |
中国 | 智谱 AI | 智谱清言 | GLM | https://chatglm.cn/ |
中国 | 月之暗面 | Kimi Chat | Moonshot | https://kimi.moonshot.cn/ |
中国 | MiniMax | 星野 | abab | https://www.xingyeai.com/ |
中国 | 深度探索 | deepseek | DeepSeek | https://chat.deepseek.com/ |
大模型怎么用
记得在2021年的时候,我参加了一次关于AI的学术论坛讲座,有位教授对待AI的态度让我印象深刻。
在QA环节中,有人问教授:“现在AI一直在发展,它会不会发展的和人一样?会不会伤害人类?到那个我们应该怎么和它相处?”教授回答说:“AI如果真的发展的和我们一样了,那他本质上就是另类的人。那么我们人的思想是怎么样的,那AI的思想就是怎么样的,我们怎么和人相处就怎么和它相处。”(不是原话,大概的意思)。如今已是2024年,听说马斯克的机器人已经上市,感觉AI发展的与人类相似的日子不远了。重新回想起教授的回答,我认为我们现在应该可以把AI当作人来看待。
我们应该像向老师请教,或者与朋友讨论一样去对待AI。当然,在AI时代,我们不能放弃学习,我们知道的越多,就越能知道怎么让AI来帮助我们。我们要把AI作为辅助工具来利用,让我们的工作和生活更高效。
我们的认知上限决定了AI作用的上限。如果我们拥有这样一个工具却不加以使用,或者仅仅提出一些刁钻的问题让它回答,与深度使用它来作为生活中的助手相比,效果是完全不同的。