国内大模型在局部能力上已超ChatGPT

9c8e2e2383db4e53817fae0bd986a4b8.jpg中文大模型正在后来居上,也必须后来居上。

 

@数科星球原创

作者丨苑晶

编辑丨大兔

从GPT3.5彻底出圈后,大模型的影响力开始蜚声国际。一段时间内,国内科技公司可谓被ChatGPT按在地上打,毫无还手之力。

彼时,很多企业还不知大模型为何物,GPT3.5就已够生成诸如营销文案、小说、诗歌等高质量的中文文本。一时间,买课小贩、租号中间商和套壳开发者大行其道。

现如今,在国内厂商严肃对待OpenAI后,情况发生了变化。

在公开资料中,就有360、复旦大学、科大讯飞等企业表达了在中文能力上超越ChatGPT的消息。现在,时间进入2023年8月份,号称超越国外竞品的公司变得越来越多。

 

01

 

中文模型进击:ChatGPT“不香”了

 

客观地说,在GPT-3推出后,OpenAI曾经在中文文本输出中占得先机。其一经推出,便可覆盖诸如营销文案、小说和诗歌等领域的文生文需求。几个月前,这种先手优势养活了国内一众卖课达人、租号团队以及套壳聊天机器人产品。

 

不过,很快,这些功能便被国内众多厂商超越,变成了大模型的“标配”功能。

 

根据第三方监测机构SimilarWeb的数据显示,ChatGPT从4月开始就呈现出了明显放缓的趋势。以至于在2023年的第二季度,人们的朋友圈内几乎没有了OpenAI的踪影。在科技圈,这被归结为竞争对手大批量涌入、垂直模型兴起和新技术迭代所导致。

 

8月初,中文大模型的“千模大战”已进入白热化阶段。以数科星球(ID:digital-planet)团队所掌握的信息来看,越来越多的企业开始关注下沉市场、并致力于推进具体行业和大模型产品的结合。

 

这种趋势的结果是,可能会有更多的企业和机构选择使用本土产品,同时也对国外模型的市场份额造成一定影响。在数科星球(ID:digital-planet)团队体验二十余款中文大模型后,所得到的观感和上述言论趋同:即中文大模型正在变得越来越好用,并变得越来越聪明。

 

更为关键的是,政策层面对国内产品的扶植力度正在加强,而出于安全和自主可控等因素,ChatGPT的“没落”(至少在国内)似乎已成板上钉钉。

 

但国内厂商的野心还远不止“内卷”国内市场——一些公司已然将目光瞄准了海外。

 

科大讯飞董事长刘庆峰此前表示,其星火大模型中文已超越ChatGPT,在英文中也已接近,虽还有细微差别,但目前在进一步优化中。

 

02

 

中文大模型变聪明的背后

 

为了探求国内中文大模型的发展情况,在过去的几个月中,数科星球(ID:digital-planet)团队与几十家公司进行了百余次沟通。结果是,科技圈的大佬和创业新星们对待OpenAI的态度严肃且认真。

 

除了在产品上进行了洗心革面式的改进,还对模型的评价体系进行了优化。

 

为了弥补中文大模型在评测领域的缺失,日前由清华大学、上海交通大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集于不久前推出,该评测名为C-Eval,受到了行业内的广泛关注。

 

在一些专业人士看来,此评测的初衷是用“锱铢必较”的方式找出中文大模型的比较优势。和以往由第三方咨询公司所主导的、带有倾向性甚至定制化的行业评比所不同的是,无论在过程和结果上,C-Eval更加透明和公开。

683ed2431f5f4800af5a9eec0f9d093b.png

 

据了解,全套测验包含13948道多项选择题,涵盖52个不同学科和四个难度级别。其中前四名包括为清华智谱的ChatGLM2、OpenAI的GPT-4、商汤的SenseChat,APUS的AiLMe-100Bv1。

45dd7066ca4441ebb7979964f0dbe044.png

 

对比由微软亚洲研究院(Microsoft Research Asia)开发的基准测试AGIEval,C-Eval覆盖的领域更广。APUS技术专家张旭称:“AGIEval只覆盖了中国高考题、公务员考试题等几个类别,而C-Eval覆盖了注册电气工程师、注册计量师……等领域”,覆盖范围的拓宽意味着,除高考、公务员考试等场景外,在其他特定职业领域也可以测定大模型的能力。

 

 

从另一个角度说,C-Eval是一个对大模型从人文到社科到理工多个大类的综合知识能力进行测评的竞赛。通常,高阶难度测试是考验大模型性能的关键动作,面对复杂且有挑战性的任务,大多大模型性能会大幅下降。在C-Eval公布的评比结果中,APUS的AiLMe-100Bv1除了在平均分上进入四强,还在难题处理方面超越GPT-4*,排名第一。

 

 

据悉,C-Eval Hard(难题)类别是首个提供中文复杂推理能力的测试,“即便是GPT-4来做这个题也会很吃力,”张旭提及,“这是‘闭卷考试’,而以往如AGIEval和MMLU是‘开卷考试’,也就是说,AGIEval和MMLU是各公司自己测试、自己打分、自己公布成绩,而C-Eval Hard的评比显然更加客观、可信。”

 

的确,C-Eval测评难度比其他测评更高且更严格。在打分流程上,C-Eval更像是学校中为学生准备的大考模式,各个公司参加统一考试并由系统自动打分、C-Eval团队人工审核成绩并公布,所以,就结果上看,其测评所公布的成绩真实性更高。

 

03

 

国内大模型的未来

 

放眼行业,大模型对于国内人工智能产业的意义非凡。

 

在NLP行业出现范式变革后,Transformer为主导的新一代通用大模型产品大行其道,让人们看到了AGI的曙光。甚至可以说,中国版的ChatGPT3.5/4.0的问世是我国正式迈向人工智能时代的重要标志。

 

在过去,一、二级资本市场对国内大模型产业意见颇多。讨论最多的是,国内公司没有在前沿技术投入太多,反而将精力侧重于“蹭”数字人、AIGC等概念之上。

 

客观地说,上述评价不无道理,其中不乏因大环境不好,企业对前沿投入审慎和相关技术积累薄弱等问题所导致。

 

但近期,随着数科星球(ID:digital-planet)对大模型行业认识的深入,以上问题正在得到改变:首先,以智源研究院、百度文心一言、商汤和APUS等企业的持续投入,我国已有多家企业具备大模型制作和运营能力(此前大多为小模型);其次,随着上半年密集的模型发布大会逐渐落幕,新模型开始迭代积累,并向着ChatGPT能力靠拢。

 

在我们所知的大模型产业上下游企业中,针对数据处理、清洗、标注、模型训练、推理加速等方面的技术也正在加速追赶之中;最后,政策层面已注意到发展大模型和ChatGPT的必要性,开始着手调集更多资源应对,相关生态和创新土壤也正在完备的过程中。

 

可以肯定的是,本次人工智能革命的核心就是通用大模型。目前,我国众多企业正在加速追赶。

 

现在,超越ChatGPT已成为国内AI从业者们心中的图腾。想必若假以时日,这个目标将有机会实现。而到那时,一个属于人工智能时代的大幕才彻底拉开。

 

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/27106.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

怎么快速搭建BI?奥威BI系统做出了表率

搭建BI系统有两大关键,分别是环境搭建和数仓建设。这两点不管是哪一个都相当地费时费力,那要怎么才能快速搭建BI平台,顺利实现全企业数字化运营决策?奥威BI系统方案,你值得拥有! 奥威BI系统方案&#xff0…

三种方法实现tab栏切换(CSS方法、JS方法、Vue方法)

一、需求 给下图的静态页面添加tab栏切换效果 二、CSS方法 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta http-equiv"X-UA-Compatible" content"IEedge"><meta name"v…

云知识库软件的推荐清单,你看看你喜欢哪一个?

在选择云知识库软件时&#xff0c;有很多因素需要考虑&#xff0c;如功能、易用性、可定制性、安全性、价格等。下面是一些我喜欢的云知识库软件推荐清单&#xff1a; Confluence&#xff1a; Confluence是一款由Atlassian开发的知识管理和协作工具。它提供了强大的编辑和协作…

Go微服务实践 - Rpc核心概念理解

概述 从0研究一下Golang已经Golang的微服务生态体系&#xff0c;Golang的微服务首先要从Rpc开始&#xff0c;在升级到Grpc&#xff0c;详细介绍这些技术点都在解决什么技术问题。 Rpc Rpc (Remote Procedure Call) 远程过程调用&#xff0c;简单的理解是一个节点请求另一个节…

【果树农药喷洒机器人】Part4:果树冠层图像实例分割模型优化

文章目录 一、引言二、数据集制作2.1图像采集2.2图像标注与增强 三、构建柑橘树冠实例分割模型结构3.1优化特征提取网络3.2U-Net替换FCN 一、引言 为准确获取柑橘树冠的生长信息&#xff0c;实现果树喷药机器人的精准喷施&#xff0c;对处于多种生长阶段的柑橘树冠进行图像分割…

AI和ChatGPT:人工智能的奇迹

AI和ChatGPT&#xff1a;人工智能的奇迹 引言什么是人工智能&#xff1f;ChatGPT&#xff1a;AI的语言之王ChatGPT的工作原理ChatGPT的优势和挑战AI和ChatGPT的未来展望结论 引言 人工智能&#xff08;Artificial Intelligence&#xff0c;简称AI&#xff09;是一项令人兴奋的…

IAR开发环境的安装、配置和新建STM32工程模板

IAR到环境配置到新建工程模板-以STM32为例 一、 简单介绍一下IAR软件1. IAR的安装&#xff08;1&#xff09; 下载IAR集成开发环境安装文件&#xff08;2&#xff09; 安装 2. 软件注册授权 二、IAR上手使用(基于STM32标准库新建工程)1、下载标准库文件2、在IAR新建工程&#x…

ImageNet Classification with Deep Convolutional Neural Networks

&#xff08;一&#xff09;Some Words: 这里主要是通过记录一些笔记来阅读这篇 Paper&#xff0c;它的产生跟 ImageNet LSVRC-2010 竞赛有关&#xff0c;通过训练一个大的、深的卷积网络来将 1.2 million 的 HR 图像分成 1000 类 &#xff0c;这个网络实现了 top-1 37.5% 和 …

GPU显存泄露/显存溢出/显存爆炸 解决方案

问题描述 最近在跑一个基于pytorch的强化学习代码&#xff0c;在训练过程中显存增大非常明显&#xff0c;迭代不到200个iteration就可以占据70G的显存。由于博主是第一次在pytorch实现的强化学习算法上加入自己的实现&#xff0c;很没有应对经验&#xff0c;现将调试过程记录下…

计算机网络(5) --- http协议

计算机网络&#xff08;4&#xff09; --- 协议定制_哈里沃克的博客-CSDN博客协议定制https://blog.csdn.net/m0_63488627/article/details/132070683?spm1001.2014.3001.5501 目录 1.http协议介绍 1.协议的延申 2.http协议介绍 3.URL 4.urlencode和urldecode 2.HTTP协…

使用 RKE 方式搭建 K8s 集群并部署 NebulaGraph

本文由社区用户 Albert 贡献&#xff0c;首发于 NebulaGraph 论坛&#xff0c;旨在提供多一种的部署方式使用 NebulaGraph。 在本文&#xff0c;我将会详细地记录下我用 K8s 部署分布式图数据库 NebulaGraph 的过程。下面是本次实践的内容规划&#xff1a; 一到十章节为 K8s 集…

用html+javascript打造公文一键排版系统16:更新单个附件说明排版,实现多个附件说明排版

利用公休的时间继续完善。 一、更新单个附件说明排版 之前实现单个附件说明排版时&#xff0c;我们只考虑了“附件&#xff1a;”中冒号为半角的情况&#xff0c;而没有考虑存在多任余空格的情况&#xff0c;我们今天先针对存在多任余空格的情况进行完善&#xff0c;增加了温…

APP外包开发的开发语言对比

在开发iOS APP时有两种语言可以选择&#xff0c;Swift&#xff08;Swift Programming Language&#xff09;和 Objective-C&#xff08;Objective-C Programming Language&#xff09;&#xff0c;它们是两种不同的编程语言&#xff0c;都被用于iOS和macOS等苹果平台的软件开发…

[国产MCU]-BL602开发实例-定时器

定时器 文章目录 定时器1、BL602定时器介绍2、定时器驱动API介绍3、定时器使用实例3.1 单次计时3.2 持续计时通用定时器,用于定时,当时间到达我们所设置的定时时间会产生定时中断,可以用来完成定时任务。本文将详细介绍如何使用BL602的定时器功能。 1、BL602定时器介绍 BL6…

如何搭建自动化测试框架?资深测试整理的PO模式,一套打通自动化...

目录&#xff1a;导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结&#xff08;尾部小惊喜&#xff09; 前言 Po模型介绍 1、简…

Redis 报错 RedisConnectionException: Unable to connect to x.x.x.x:6379

文章目录 Redis报错类型可能解决方案 Redis报错类型 org.springframework.data.redis.connection. spingboot调用redis出错 PoolException: Could not get a resource from the pool; 连接池异常:无法从池中获取资源; nested exception is io.lettuce.core. 嵌套异常 RedisConn…

聊聊JDK动态代理原理

1. 示例 首先&#xff0c;定义一个接口&#xff1a; public interface Staff {void work(); }然后&#xff0c;新增一个类并实现上面的接口&#xff1a; public class Coder implements Staff {Overridepublic void work() {System.out.println("认真写bug……");…

一起学数据结构(3)——万字解析:链表的概念及单链表的实现

上篇文章介绍了数据结构的一些基本概念&#xff0c;以及顺序表的概念和实现&#xff0c;本文来介绍链表的概念和单链表的实现&#xff0c;在此之前&#xff0c;首先来回顾以下顺序表的特点&#xff1a; 1.顺序表特点回顾&#xff1a; 1. 顺序表是一组地址连续的存储单元依次存…

图像提示词攻略--基于 stable diffusion v2

Stable Diffusion 是一种潜在的文本到图像扩散模型&#xff0c;能够在给定任何文本输入&#xff08;称为提示&#xff09;的情况下生成逼真的图像。 在本文中&#xff0c;我将讨论和探索一些提高提示有效性的方法。从在提示中添加某些关键字和组合词、从更改单词顺序及其标点符…

24v转3.3v输出3A用什么芯片

问&#xff1a;客户需要一个能够将24V输入电压转换为3.3V输出电压&#xff0c;并且能够提供1-3A的电流输出的芯片。还希望它能够内置MOS管。有什么推荐的型号吗&#xff1f;&#xff08;vin24v、5v&#xff0c;vout3.3v&#xff0c;Io1-3A&#xff09; 答&#xff1a;推荐使用…