AI“百模大战”现状:向垂直、B端谋场景,算力仍是主要制约因素

文章目录

  • 每日一句正能量
  • 前言
  • AI(人工智能)大模型正“飞入”百姓家和行业中。
  • 向垂直、B端谋场景
  • 算力仍是主要制约因素
  • 构建“数据-模型-应用”飞轮
  • 后记

在这里插入图片描述

每日一句正能量

我们必须在失败中寻找胜利,在绝望中寻求希望。

前言

在当前快速发展的人工智能领域,AI模型的性能提升和应用场景的扩展成为众多科技公司的关注焦点。为了评估和比较不同AI模型的性能,近年来出现了一种称为“百模大战”的趋势。这种比拼方式通过针对特定任务或数据集,同时运行多个AI模型并比较它们的表现,从而找到最佳的模型。

AI(人工智能)大模型正“飞入”百姓家和行业中。

记者近日获悉,根据国家七部委联合公布的《生成式人工智能服务管理暂行办法》指导要求,包括蚂蚁百灵大模型、昆仑万维天工大模型、知乎知海图AI大模型在内的多个大模型近日完成备案,将向公众开放。

第二批完成备案的大模型中,有三个行业大模型备受关注。多位受访的权威专家表示,随着更多大型人工智能模型的备案和应用落地,可以看到大模型正越来越多地针对特定垂直行业进行优化和应用,正在从主要面向消费者应用(B2C)转向更多地服务于企业客户(B2B)。

不过,仍应看到算力、算法、数据和基础设施等方面还在制约着国内大模型行业的发展,而美国再次收紧对华AI芯片出口的限制,无疑在短期内制约着国产大模型的发展。在这个背景下,国内大模型的竞争已经从拼算力、拼人才的早期阶段,进入到拼应用、拼生态的阶段,如何形成“数据-模型-应用”的飞轮是未来一段时间大模型企业成功的关键。

向垂直、B端谋场景

在第一批大模型通过备案逐步落地应用之后,蚂蚁百灵大模型、月之暗面Kimi大模型、昆仑万维天工大模型、知乎知海图AI大模型、出门问问序列猴子大模型、面壁智能Luca大模型等大模型在近日通过备案,其中包括三个行业大模型,分别是办公行业的金山WPS大模型、教育行业的网易有道子曰大模型和好未来MathGPT大模型。

记者了解到,第一批通过备案的大模型主要是基础通用模型,包括百度文心一言、百川智能、商汤商量SenseChat、抖音“云雀”、智谱AIGLM大模型、中科院“紫东太初”、上海MiniMaxBAB大模型、上海人工智能实验室书生通用大模型、“360智脑”。第二批通过备案的大模型,大部分依然是通用型模型。

其中,蚂蚁百灵语言大模型采用Transfromer架构,基于万亿级Token语料训练而成,支持窗口长度达32K,在主流推理类榜单中排名前列;硬件算力效率(HFU)超过60%,集群有效训练时长占比90%以上,RLHF(人类反馈强化学习)训练在同等模型效果下训练吞吐性能相较于业界方案提升3.59倍,推理性能相较于业界方案提升约2倍,处于业界先进水平。

昆仑万维天工大模型是国内首个对标ChatGPT的双千亿级大语言模型,也是一个AI搜索引擎,一个对话式AI助手。天工大模型拥有强大的自然语言处理和智能交互能力,能够实现个性化AI搜索、智能问答、聊天互动、文本生成、编写代码、语言翻译等多种应用场景,并且具有丰富的知识储备,涵盖科学、技术、文化、艺术、历史等领域。知乎知海图AI大模型是在CPM-Bee基础上研发的中文大模型,拥有千亿级参数,具备多模态处理能力。

上海交通大学安泰经济与管理学院教授、上海交通大学产业经济研究中心主任史占中在接受记者采访时表示,随着更多大型人工智能模型的备案和应用落地,可以看到大模型正越来越多地针对特定垂直行业进行优化和应用,正在从主要面向消费者应用(B2C)转向更多地服务于企业客户(B2B),当前的大型模型备案和应用的趋势表明这些技术正变得更加成熟、专业化,并且正在深入整合到具体行业和企业的核心运营中。

中国移动通信联合会元宇宙产业委执行主任、香港区块链协会荣誉主席于佳宁对记者分析指出,近日的大模型备案和应用显示出我国AI大模型发展的几个显著趋势。首先,备案的AI大模型正趋向于特定垂直行业的深度集成,这表明AI技术的应用正在从泛用型转向更加专业化和行业定制化的服务。

其次,这一批大模型的落地应用也在向to C端推进,这意味着不仅仅是企业服务市场,普通消费者也将直接受益于AI大模型的智能化服务。这样的转变将促使大模型开发者更加重视用户体验和交互设计,以适应广大消费者的需求。通过备案开放给公众的大模型能够收集到更多的数据,这对于模型的训练和优化至关重要。更多的真实场景数据能够帮助模型更好地理解人类语言和行为模式,进而提供更加准确和个性化的服务。这种数据驱动的模型迭代是推动AI大模型快速进步的核心动力。

算力仍是主要制约因素

国产大模型虽然向行业、产业和专业化进化,但也应该看到国内大模型行业仍面临算力、算法、数据和基础设施等方面的多重挑战。华泰证券科技与电子行业首席分析师黄乐平对记者表示,算力仍然是国产大模型面临的最大挑战,特别是今年10月,美国再次收紧对华AI芯片出口的限制,禁运A/H800等产品。这短期会对国内企业开展大模型业务的成本造成一些负面影响,但同时会倒逼国内算力平台加快成熟。

“美国的GPU(图形处理器)禁运,使国内算力受到制约是肯定的。在这个背景下,国内大模型的竞争已经从拼算力、拼人才的早期阶段,进入到拼应用、拼生态的阶段。没有产品基础的通用大模型公司将面临寻找场景、建立客户基础等更为严峻的挑战。”冰鉴科技研究院行研负责人周扬告诉记者。

史占中表示,国产大模型的发展在过去大半年确实面临诸多挑战,特别是在算力、算法、数据和基础设施等方面。美国对高端GPU芯片出口的限制更是为这些挑战增添了复杂性。高端GPU芯片的出口限制直接影响了国内大模型开发所需的计算资源。国内大模型行业发展还面临成本高企、人才短缺和应用场景的探索与匹配等问题。此外,合理的政策和监管框架对于大模型技术的健康发展至关重要。国内需要进一步明确和完善,特别是在数据隐私和安全、知识产权保护等方面。

在黄乐平看来,应用落地是目前制约AI大模型发展的另一个瓶颈。依据美国的情况,目前AI大模型主要找到四个应用场景,分别是Office等生产力工具、电商客服、游戏的美工和NPC以及编程助理。看国内最近的发展,AI在游戏领域的落地进展非常快,但是在生产力工具和编程助理等2B软件上,怎么让国内用户对软件进行付费是个问题。

此外,黄乐平认为,数据也是国产大模型较大的挑战。海外已经积累了丰富的开源高质量数据集,而国内数据方面,学术领域中文数据集受重视程度低,中文互联网高质量数据往往封闭于各平台内,因此国内大模型训练也往往使用多个海外开源数据集。

于佳宁认为,国对高端GPU芯片出口的限制对国内算力构建造成直接影响。虽然国产替代正在加速,但在短期内达到与国际先进水平相匹配的算力水平仍然具有挑战性。另外,高质量的数据语料获取对于模型的有效训练至关重要,而国内在某些垂直领域的数据采集和处理能力仍需加强。在基础设施层面,尽管云计算等技术的发展为大模型提供了支持,但国内在网络带宽、数据中心等基础设施的完善和升级上还有较大空间。

于佳宁指出,国内大模型行业的发展还面临着成本和应用场景的双重难题。从成本角度来看,大模型的训练和部署成本较高,而这对于初创企业和中小企业来说是一大负担。在应用场景上,虽然大模型的潜在应用范围非常广泛,但如何将大模型与实际业务需求紧密结合,创建具有商业价值的应用场景,仍是一大挑战。此外,产业链的完善和生态构建也是国内大模型行业发展中的一大难题,需要行业内外的协同努力。

构建“数据-模型-应用”飞轮

面对重重挑战,史占中认为,国产大模型的发展需要采取一系列措施应对挑战并寻找适合自身发展的路径。首先,要加强核心技术研发,重点投入资源于核心算法的研发和优化,减少对高端硬件的依赖;其次,要加大对国产计算硬件的研发和生产力度,包括GPU、ASIC(专用集成电路)和其他高性能计算设备;另外,在高校和研究机构中加强人工智能和相关领域的教育和培训,培养更多AI人才,同时制定优惠政策吸引海内外顶尖人才;最后,要与不同行业合作,共同探索大模型的应用场景和商业模式。构建开放的创新生态系统。

黄乐平指出,AI大模型是一个资本密集、人才密集和数据密集的产业,如何形成“数据-模型-应用”的飞轮是大模型企业成功的关键。经过一年发展,未来进入商业落地的阶段,关键是找到适合中国市场情况的应用场景。中国有非常强的消费电子产业和制造基础,怎么把AI大模型和硬件结合,催生新的消费需求是一个重要的发展路径。

周扬表示,无论是互联网大厂,还是创业型的大模型公司,to B都应该成为重点布局的领域,这也是应对挑战的可行出路之一。从另一个角度来看,大模型的垂直应用需要深耕某个行业,了解该行业的专业知识(Know-How),然后才能结合客户需求在具体场景应用中微调训练模型,而且还要能够使大模型与客户原有业务中的模型算法相融合,降低客户采用新技术的成本。

于佳宁表示,国内大模型行业的发展需要在保障技术先进性、降低成本、确保数据安全和质量、加强产业协同等多方面采取综合措施,走出一条符合国内实际情况的发展路径。在产业链完善和生态构建方面,应当建立更为紧密的产学研合作体系,形成产业联盟,共同推动技术标准、应用场景和商业模式的创新。同时,鼓励开源共享,通过生态合作提升整体行业的竞争力。

  • 在算力方面,应该积极促进国产硬件技术的突破,加大投资力度,以实现对外部供应链风险的有效管控和降低成本。同时,通过建立分布式计算资源池,提升算力的使用效率。其次,算法和数据预料的优化也至关重要。国内研究机构和企业应当增加研发投入,促进算法的创新和迭代。同时,应该建立更为严格和标准化的数据采集与处理机制,确保训练数据的质量和多样性。

  • 在基础设施方面,需要通过政策扶持和市场机制,加快数据中心、网络带宽等基础设施的建设和升级,为大模型的部署和运行提供坚实的物理基础。对于成本控制和应用场景的拓展,一方面需要推进商业模式的创新,例如通过云服务模式降低用户的使用门槛;另一方面需要加强与行业用户的沟通与合作,深入了解不同行业的具体需求,定制化开发适应特定场景的大模型应用。

最后,考虑到政策监管的重要性,国产大模型发展还应密切关注政策动向,主动与监管机构沟通,确保合规性,同时积极参与政策的讨论和制定,为行业健康发展提供政策支持。

后记

在过去的几年里,“百模大战”已经成为了评估和比较AI模型性能的一种常见方式。通过同时运行多个AI模型,并对其结果进行比较,我们可以更好地了解不同模型的优劣之处。这种竞争方式推动了AI领域的发展,使得更多的模型得以改进和优化。

与此同时,人工智能的应用场景也在不断扩展。除了通用的场景外,垂直和B端场景成为了“百模大战”的另一个重要方向。这些场景更加专业化和细分,对AI模型的要求更高。为了满足特定领域的需求,研究人员和企业开始针对特定任务开发更加定制化的AI模型。

然而,尽管“百模大战”在推动AI发展方面发挥了重要作用,但算力仍然是一个主要的制约因素。许多高性能的AI模型需要大量的计算资源来进行训练和推理,而这对中小型企业来说可能是一个挑战。因此,解决算力问题仍然是推动AI技术普及的一个关键问题。

总之,“百模大战”为我们提供了一种有效的方式来评估和比较AI模型的性能。随着AI应用场景的拓展和技术的改进,我们有望看到更多垂直领域和B端场景的AI模型的应用。同时,通过解决算力问题,我们可以使AI技术更加普及,并在各个领域实现更广泛的应用。

转载自:https://blog.csdn.net/u014727709/article/details/135123864
欢迎 👍点赞✍评论⭐收藏,欢迎指正

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/240033.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SecureCRT连接vmware虚拟机的centos系统配置

软件版本:VMware10.0.3,centos 7,securecrt 8.7.2 1,虚拟网络编辑器选择桥接模式, 2,如果不小心删除网络,centos关机状态下,选择恢复默认设置。 3,进入linux系统&#…

革命性突破:Great River推出XL高速ARINC 818传感器测试卡

Great River Technology荣幸地宣布,与RVS(远程视觉系统)2.0平台合作推出的XL高速ARINC 818传感器测试卡正式亮相。这款开创性的测试卡在柯林斯航空电子公司(RTX业务部)和波音公司开发和测试RVS 2.0系统中发挥了重要作用…

牛客小白月赛84——k级序列(超级无敌详解)(贪心)

前言: 这b题费了我一身牛劲,结果还是没有做出来,晚上请教大佬后,知晓方法,才将其ac,于是决心务必再次使用传说中的费曼学习法,并与大家分享一下这道题目。 题目: 登录—专业IT笔试…

09.list 容器

9、list 容器 功能: 将数据进行链式存储 链表(list)是一种物理存储单元上非连续的存储结构,数据元素的逻辑顺序是通过链表中的指针链接实现的 链表的组成: 链表由一系列结点组成 结点的组成: 一个是存…

Zabbix6 使用Agent2实现证书监控的详细步骤

目标 我们的目标是通过获取网站的证书信息来实现网站证书监控。 使用agent2的key 只需使用其中的key,就能实现我们的目标功能。然而,由于它返回的是json格式的数据,我们需要根据数据来配置监控项目(item)和触发器&am…

六西格玛的科技漩涡——张驰咨询如何促成企业变革

在管理的海洋里,六西格玛管理是一艘稳健的航船,在质量管理的汪洋中乘风破浪,尽管质疑之声像远处的风暴不断逼近,但张驰咨询公司依靠这艘航船坚持初心,驭风而行。 20载耕耘,张驰咨询不仅仅是培养了超过8000…

IP地址子网划分案例

网络工程师基本功,每人必会的IP地址划分案例。 要求: 一段C类地址192.168.1.0/24,请你将地址分给网络中的主机,要求至少有5个子网,每个子网至少有20台主机。 步骤: 1、要求5个子网,要向主机…

Jenkins自动化部署-配置ssh代码拉去方式的密钥(公私钥)

Jenkins想要通过ssh方式拉去gitlab代码,则需要在在Jenkins服务器配置私钥,gitlab服务器配置公钥 使用root用户生成公钥和私钥 ssh-keygen -t rsa在/root/.ssh/目录保存了公钥和使用 id_rsa:私钥文件 id_rsa.pub:公钥文件 把生…

BDD - Python Behave VS Code 插件 Behave VSC

BDD - Python Behave VS Code 插件 Behave VSC 引言Behave VSC 插件Behave VSC 安装Behave VSC 注意事项Behave VSC 插件默认可识别的项目结构Behave VSC 设置识别非 features 文件名的项目 引言 上一篇《BDD - Python Behave 入门》介绍了 Behave 的入门基础知识,…

IP应用场景的规划

IP地址作为互联网通信的基石,在现代社会中扮演着至关重要的角色。本文将深入探讨IP地址在不同应用场景中的规划与拓展,探讨其在网络通信、安全、商业、医疗和智能城市等领域的关键作用与未来发展趋势。 IP地址的基本原理 IP地址是分配给网络上设备的数…

python画图【00】Anaconda和Pycharm和jupyter的使用

①Anaconda ②Pycharm 一、Anaconda安装步骤 1、双击安装包,点击next。 2、点我同意I agree 3、 4、选择需要安装的位置,位置可根据自己情况安装到具体位置,但要记住安装到了哪里。然后点击next 5、可选择加入到环境变量,…

深入了解 Android 中的应用程序签名

深入了解 Android 中的应用程序签名 一、应用程序签名介绍1.1 应用程序签名1.2 应用程序签名的意义1.3 应用程序签名的流程1.4 应用程序签名的方案1.5 签名的重要性和应用场景 二、AOSP 的应用签名2.1 AOSP的应用签名文件路径2.2 应用程序指定签名文件 三、Android Studio 的应…

基于电商场景的高并发RocketMQ实战-NameServer内核原理剖析、Broker 主从架构与集群模式原理分析

🌈🌈🌈🌈🌈🌈🌈🌈 【11来了】文章导读地址:点击查看文章导读! 🍁🍁🍁🍁🍁🍁&#x1f3…

自动生成数控加工的轨迹刀具轨迹阿基米德螺旋线(3D)

文章目录 1. 阿基米德螺旋线2. 生成步骤目标: 基于点云自动生成阿基米德螺旋线轨迹点 针对的是半球形模型效果 1. 阿基米德螺旋线 阿基米德螺旋线(Archimedean spiral)是一种数学曲线,由古希腊数学家阿基米德(Archimedes)在公元前225年左右首次研究和描述。这条曲线的方…

Ignite内存配置

配置内存 #1.内存架构 #1.1.概述 Ignite内存架构通过可以同时在内存和磁盘上存储和处理数据及索引,得到了支持磁盘持久化的内存级性能。 多层存储的运行方式类似于操作系统(例如Linux)的虚拟内存。但是这两种类型架构之间的主要区别是&…

zustand 搞定 react 中复杂状态管理

Zustand 是一个轻量级的、无依赖的状态库,适用于 React 和函数式编程。它提供了一个简单、灵活的方式来管理应用程序的状态。本文就讲讲如何使用 zustand 搞定 react 中复杂状态管理,进而替代 redux 。 一、前言 以 redux 为代表的这类单向数据流状态管…

化繁为简,Python快速入门,从基础到实践的学习。

文章目录 前言一、安装与运行命令行运行 python 文件 二、变量和简单数据类型2.1 变量命名规则2.2 字符串2.2.1 字符串的简单运算title()upper()、lower() 2.2.2 合并(拼接)字符串2.2.3 使用制表符或换行符来添加空白2.2.4 删除空白2.2.5 Python 2 中的 …

Pixelmator Pro 中文

Pixelmator Pro是一款专为Mac用户设计的强大图像编辑软件。它提供了丰富的功能和直观的界面,使用户可以轻松进行各种图像处理任务。该软件支持各种文件格式,包括JPEG、PNG、GIF、BMP和TIFF等,并可导入Photoshop的psd文件。它提供了丰富的绘画…

C/C++ 外部链接的静态变量 static和extern的应用

外部链接的静态变量具有文件作用域、外部链接和静态存储期。该类别有时称为外部存储类别(external storage class),属于该类别的变量称为外部变量(external variable)。把变量的定义性声明放在所有函数的外面便创建了外部变量。当然,为了指出…

U-Net: Convolutional Networks for Biomedical Image Segmentation(CVPR2015)

文章目录 AbstractIntroductionNetwork ArchitectureConclusiontorch code hh 源代码 Abstract 人们普遍认为,深度网络的成功训练需要成千上万个带注释的训练样本。在这篇论文中,我们提出了一个网络和训练策略,该策略依赖于数据增强的强大使…