GPT-4o是一个非常优秀的多模态大模型。它的输入是语音、文字、图像/视频。输出自然有语音、文字、图像。如果说它像一个人的能力,那还真的差不多了。可能离AGI就不远了吧!在现有的AI能力路上,SamAltman那句逆言的忠耳一定要听:不要在OpenAI前进的路上;不要研究基础的AI能力。
可是OpenAI又不站在中国这一边,能怎么办呢?我们只能一边期望OpenAI达到AGI;一边既要努力研发芯片、一边又要努力研究模型;还要判断 GPT5是不是就极度接近AGI了呢?
不管这些,还是看看GPT-4o可能的技术吧。也许你看一个公司的产品发布是会得到它的技术端倪的。
从整体上看,GPT-4o是一个极其特殊的多模态模型。不太可能是多个模型组合的东西。所以,它的大概结构框架可能是这样的图
这里边有几个难点
- 流式的语音识别。尽管从架构上看,流式语音与批处理语音处理的差别不大。但是实际技术难度上是有相当大的区别的。因为批处理在数据预处理,模型数据的输入固定大小,模型的训练等方面与这个图像、文字可能没有什么差异,只要在数据预处理这块做个手脚,完成特征到嵌入的转换,可能就是一个标准的多模型模型就成了!
但是这个流式的处理,麻烦在于两点:实时性对于性能极其的敏感,这次的GPT-4o本身可以说在300ms左右解决了输入与输出这个响应,那在基础模型的优化计算、算力的大的集群调度上有了一个质的飞跃!甚至是Nvidia的显卡供货上都得到了优先保障!
另一个难点,可能是流式模型的嵌入转化。这方面的论文好像在去年才逐渐增加的。典型的是 onformer-Based on-Device Streaming Speech Recognition 一类的吧。
https://ieeexplore.ieee.org/abstract/document/10023291
所以我觉得这个流式的问答一出来,所有搞语音AI助手的创业公司真的就死掉了!
SamAltman那句逆言的忠耳一定要听:不要在OpenAI前进的路上;不要研究基础的AI能力。
再就是不那么惊艳的 文字与图像的能力,很明显过去在GPT-4这个阶段,我们是体会过这个东西的,但是说实话并没有达到特别好的程度。现在这个实时对话的那个 图的识别,你感到的是什么?
它可能正在多模态,也就是图像这个领域达到它曾经在文字处理上达到的高度。真的能够跟人一样的认清这个世界的样子?
不过这个东西的架构上,大家可能差不多,至少在国内公开的模型中通义千问曾经做得不错的。
但是,当它能看到你看到的一样的东西,也能像你一样的理解这个世界?
你不觉得它可怕吗?
再看看这个程序的理解能力,你觉得程序员怕不怕???
就问你怕不怕?
在去年我就写过程序员这个职业要完蛋的文章。
今天我要更明确的说,程序员这个职业看到了落日!
如果你想,可能真的要去重新认识一下,人工智能这件事!
上面的介绍吧,都是GPT-4o 的简单分析,具体的训练方法,我这里就不多讲了,但我十分推荐你来听听,知乎知学堂的最近推出的这节《AI大模型公开课》。主要针对的就是想进阶AI方向的产品经理和程序员,讲大模型的技术原理和实战,对我的帮助很大,尤其是课程里关于Transformer 的原理、使用Fine-Tuning进行模型微调的技术一定要仔细听。
而且现在大模型正是行业趋势,AI全栈工程师才是未来的方向,如果都掌握了,白富美有没有我不知道,但是跳槽、涨薪都是个很好的加分项是一定的。
视频教程我直接给大家找过来了,现在直接微信扫码就可以,据说后面就要收费了⬇️
对了,如果你懂点Python,那这节课对你来说学起来会很轻松!大佬讲解的通俗易懂,出了前沿的技术,更有如今的人才需求、市场趋势分析等等,等极大的拓宽你的眼界,十分受益!
说学起来会很轻松!大佬讲解的通俗易懂,出了前沿的技术,更有如今的人才需求、市场趋势分析等等,等极大的拓宽你的眼界,十分受益!
最后,祝你能够成功的转型到人工智能时代吧,毕竟这个门已经在慢慢的关上了!
## AI大模型学习福利
作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
一、全套AGI大模型学习路线
AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!
二、640套AI大模型报告合集
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
三、AI大模型经典PDF籍
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。
四、AI大模型商业化落地方案
2024最新版CSDN大礼包:《AGI大模型学习资源包》免费分享,微信扫码免费领取~