实力强的大模型都有哪些超能力?
前几日,人工智能研究公司OpenAI CEO山姆·奥特曼(Sam Altman)在谈及人工智能这项技术的潜力以及人们对它的担忧时,曾表示“AI发展速度快得吓人,就像停不下来的龙卷风。”可见,人工智能正在以它超前的速度改变世界。
在经历了年初人工智能之大模型风口的狂热之后,截止2023年10月,我国拥有10亿参数规模以上大模型的厂商及高校院所达到了254家,这其中既有通用大模型(AGI),也有垂直大模型。换句话说,就是每隔几天,国内就会官宣一个新的大模型。
但越来越多的从业者会发现,大模型的智能化与商业化落地其实并没有那么快速。
随着大模型技术的演变和业务的落地推进,会像大浪淘沙般将一些参与主体过滤出去,最终,只有手握硬核技术实力和资源的企业才能活下去。
那么,现阶段国内如此多的大模型,都有哪些类型?哪家实力最强呢?
通用大模型与垂直大模型,哪个有前景
据称,国内大模型已近80个,这其中包括通用大模型和垂直大模型(也叫专用大模型)。它们二者相比,孰高孰低呢?其实二者如果从应用角度出发考虑的话,都具有各自的特点。
通用大模型(AGI)是指适用于多个领域或行业的大模型,例如自然语言处理领域的预训练模型、图像识别领域的预训练模型等等。
这种大模型具有更广泛的的应用范围,可以在多个领域内发挥作用。我们常常听到的人工智能公司OpenAI开发的ChatGPT、阿里的通义千问、百度的文心一言等都是通用大模型的代表。
而垂直大模型则是针对某个特定的领域或行业研发的大模型,例如医疗领域的大模型、金融领域的大模型、物流领域的大模型等。
就比如物流场景涉及单证(物流活动中进行物流承运而出具的合法效力文件,比如物流承运合同单证等)多、格式不统一等问题,物流大模型可以对其进行快速、准确的标准化识别,提供结构化数据并做好纠错、补全等操作,保障后续运单分单、履约配送等环节的质量和效率。
这种大模型在特定领域内具有更高的专业性和针对性,能够更好地解决该领域内的特定问题,因此垂直大模型也叫专用大模型。
可以说每个跟每个之间非常难以比较,所以也很难说哪个最有前途。
实力强的大模型拥有哪些超能力
虽然无法使用一个定律来比较出通用大模型与垂直大模型的优劣,但实力强的大模型拥有的“超能力”总是具有共性的,也具有更广阔的发展潜力。
//1.超大算力
相较于一般AI应用,大模型应用的训练及推理需要更强的算力支持,可以说算力决定了一个通用大模型的底线。
国内提供云服务的阿里云、腾讯云自身就拥有超大算力,这是他们研发的大模型所具有的最大竞争力。
//2.数据量大
训练大模型需要更大的数据量,更好的数据质量,更多样性的数据源。因此在大家算力都够、大模型架构差不多的情况下,谁若再加上数据量多、数据质量高的优势,便会相应地提升大模型的质量,大模型落地应用的效果也就会越好。
//3.是开源大模型
还有一个考虑的因素是是否是开源大模型。开源由于源代码公开,可以根据用户的需求随时修改和定制开发,且一般是免费的(免费使用降低了大模型的使用门槛,例如国外的ChatGPT和国内的文心一言的爆火恰就是因为它使用便捷,人人只需注册即可体验),可以让更多的开发人员和用户参与,提高大模型的质量和稳定性。开源的大模型代表有阿里的通义千问。
而闭源大模型则由开发公司维护,虽然可以控制大模型的质量和稳定性,但如果不能不断地提升自己的模型能力,不能保持长期不可动摇的领先性能,有可能会被开源取代。所以属于闭源的大模型ChatGPT、文心一言等需要保持强劲的性能。
//4.是否拥有API接口
开放服务能力是评价大模型能力的重要要素之一,大模型开放了API接口可以帮助其提升开放性,改善对外服务能力。
API接口开放对于专业人员来说必不可少。科研人员可以利用其做大量的测试。个人创业者也可以利用接口将其运用到实际的业务中。
相信在不久的将来,随着大模型面临的技术和成本问题被解决,相关的企业级应用或消费型应用落地的节奏将会加快。这样也会凸显出一批批强大的大模型厂商和应用型产品,而这些厂商和产品很大可能出自于今天这些已崭露头角的大模型产品。