大家好,我是二狗。
这两天,一款性能接近GPT-4的模型惨遭泄露,引发了AI社区的热议。
这背后究竟是怎么回事呢?
起因是1月28日,一位名为“Miqu Dev”的用户在 HuggingFace 上发布了一组文件,这些文件共同组成了一个看似新的开源 LLM,名为“miqu-1-70b”。
同一天,4chan 上的一位匿名用户(可能是“Miqu Dev”)发布了一个指向 miqu-1-70b 文件的链接,使得用户开始注意到它,但大家都不知道这个模型是谁开发的。
有网友表示无论Miqu是什么,它都很牛,Miqu在 EQ-Bench 上获得了83.5 分(本地评估),超过了除 GPT-4 之外的所有其他 LLM。
另外多说一句,该榜单测试的是大模型的情商,并不包括其他维度的能力。但情商是大模型和人类交互时非常重要的一个性能,目前该榜单的前十名仅有一名中国玩家——排名第十的由深度求索发布的“deepseek-llm-67b-chat”模型。
一时之间,网友们纷纷化身为福尔摩斯,一位网友表示,Miqu百分百和Mistral-Medium 是同一个模型。
还有网友给出了三个猜测:
它实际上是尚未公布的 mistral-large模型;
它是即将推出的 mixtral Nx70b 专家模型中的 N 个专家之一;
它是由OpenAI或Meta故意泄漏的;
Mistral CEO 认领模型,表明是被泄露
由于网友的讨论愈演愈烈,过了不到一天,Mistral 首席执行官 Arthur Mensch 终于出来认领,确认Miqu-1-70b 是抢先体验客户的一名员工泄露的早期量化水印版,在Mistral 7B发布时已经训练完成。并预告最新模型已经取得了更好的进展。
网友表示终于破案了,原来 MIQU 等于 Mistral Quantized。
网友们对此表示安慰和期待:
有网友对此点赞,并顺道讽刺了一下谷歌:
有趣的是,Mensch 首席执行官并没有明确要求删除该模型,但是量化水印版的该模型还能不能再拿去微调,还不确定。
为何大家对 Mistral有如此高的期待?
因为上个月Mistral AI开源的一个Mixtral 8x7B MoE模型引爆了AI社区。
一是因为它的性能击败了LLama2和GPT-3.5。
二是因为,Mixtral是一个专家混合模型(Mixture-of-Experts model,MoE),使用了传闻中 OpenAI 用于GPT-4的架构,但是参数相比GPT-4要小很多,堪称是缩小版“GPT-4”。
而且这个模型还开源了,Mistral AI甚至直接通过torrent链接将其甩在推特上发布。
所以大家都很期待Mistral能继续开源GPT-4 级别的模型。
在上个月,推特上就有用户疯传 Mistral 将在 24 年发布开源 GPT-4 级别模型。
但很可惜,Mistral 的CEO只表示24年要推出和GPT-4竞争的模型,没有表明要开源。
开源和闭源之争
在生成式AI的竞争舞台上,OpenAI、Google DeepMind等老牌巨头已经走向了闭源,而Mistral AI的打法是开源,这一点和Meta很相似。
虽然目前业界最强的大模型仍是GPT-4、Claude、Gemini等模型,但正如Yann LeCun所说,开源AI模型正在超越私有模型。
一旦GPT-4级别的模型开源发布,可能会给 OpenAI 的订阅付费模式带来巨大的竞争压力,尤其是当越来越多的企业寻求开源,或开源和闭源的混合。
在开源社区的追赶下, OpenAI能否凭借GPT Store以及今年即将推出的 GPT-4.5 稳稳地保持 LLM 的头把交椅呢?
参考资料
[1]https://venturebeat.com/ai/mistral-ceo-confirms-leak-of-new-open-source-ai-model-nearing-gpt-4-performance/