2024年人工智能数据报告

  大家好,我是爱编程的喵喵。双985硕士毕业,现担任全栈工程师一职,热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳,不仅形成深入且独到的理解,而且能够帮助新手快速入门。

  本文主要介绍了2024年人工智能数据报告,希望能对学习人工智能的同学们有所帮助。

文章目录

  • 1. 人工智能的发展现状
  • 2. AI benchmark
    • 2.1 NLP
    • 2.2 CV

1. 人工智能的发展现状

  到 2023 年为止,人工智能在多项任务中的表现已经超过了人类,下图清晰地展示了 AI 系统在九个代表性任务的 AI 基准测试中相对于人类基准的进步(比如,图像分类或基础阅读理解)。AI Index 团队针对每个任务选取了代表性的基准。

  在过去几年中,AI 在诸如 2015 年的图像分类、2017 年的基础阅读理解、2020 年的视觉推理、2021 年的自然语言推理等多个领域已经超越了人类。然而到了 2023 年,AI 在一些领域,尤其是那些涉及更高级认知的任务如视觉常识推理和高级数学题目解题(竞赛级问题)中,还未能超过人类。
在这里插入图片描述

2. AI benchmark

2.1 NLP

  如去年的报告所强调的,AI 技术性能的一个新兴主题是在多个基准测试中观察到的性能饱和现象,比如用来评价 AI 模型如 ImageNet 的熟练程度测试。这些测试的结果近几年趋于平稳,这可能意味着 AI 的能力已经达到一个顶峰,或者说明研究者们开始追求更高的复杂挑战。

  由于这种饱和,2023 年的 AI 指标报告中的一些测试没有出现在今年的报告中。下图显示了那些包含在 2023 年但今年未展示的基准测试,以及这些测试自 2022 年以来的进展。其中“NA”表示无明显进步。
在这里插入图片描述
  下图描绘了 2023 年 AI 指数报告中选定基准的年对年性能提升百分比。多数基准测试在初期会迅速实现显著性能增长,随后增速逐渐放缓。在最近几年,这些基准的进展微乎其微,甚至无任何提升。
在这里插入图片描述
  为了解决基准测试普遍性饱和的问题,人工智能 (AI) 研究者们开始转向更具挑战性的测试。2024 年 AI Index 报告涵盖了多个新设的基准测试,包括编程、高级推理和主动性行为等领域,这些领域在以往的报告中鲜有涉及 (图 2.1.19)。

  如上所述,近些年来,大语言模型已在包括 SQuAD(问题解答)和 SuperGLUE(语言理解)在内的传统英文基准测试中超越了人类。这种突飞猛进的发展促使我们需要更全面的评测标准。

  2022 年,斯坦福的研究人员推出了 HELM,这是一个旨在全面评估大语言模型在多种场景下的表现的评测体系,涵盖阅读理解、语言理解和数学推理等领域。HELM 通过评估 Anthropic、Google、Meta 和 OpenAI 等领先企业的模型,并使用“平均胜率”作为衡量各场景平均表现的指标。到 2024 年 1 月,GPT-4 以 0.96 的高平均胜率领先于 HELM 的总排名;不过,在不同的任务类型中,有不同的模型表现最佳。
在这里插入图片描述
  HELM 涵盖 10 种测试场景:包括 NarrativeQA(阅读理解)、两种 Natural Questions(开放书和封闭书的简答题回答)、OpenBookQA(常识问题回答)、MMLU(多学科理解)、GSM8K(小学级数学)、MATH(数学竞赛)、LegalBench(法律推理)、MedQA(医疗知识)和 WMT 2014(机器翻译)。
在这里插入图片描述
  大规模多任务语言理解 (MMLU) 基准测试是用来评估模型在零样本 (zero-shot) 或少样本 (few-shot) 情景下的性能,涵盖了 57 个学科,包括人文学科、STEM 和社会科学 (图 2.2.5)。MMLU 已经成为评估大语言模型 (LLM) 能力的首选基准:许多最先进的模型,如 GPT-4、Claude 2 和 Gemini,都已经在 MMLU 上进行了评估。

  2023 年初,GPT-4 在 MMLU 上取得了最先进的成绩,随后被 Google 的 Gemini Ultra 超越。图 2.2.6 显示了不同年份在 MMLU 基准测试上的顶尖模型分数。报告的分数是测试集的平均值。截至 2024 年 1 月,Gemini Ultra 保持最高分数 90.0%,自 2022 年以来增加了 14.8 个百分点,自 2019 年 MMLU 创立以来增加了 57.6 个百分点。Gemini Ultra 的分数是第一个超过 MMLU 的人类基线 89.8% 的。
在这里插入图片描述
  在 2022 年的 ACL 大会上首次介绍的真实问答(TruthfulQA)是一个测试大语言模型 (LLMs) 答案真实性的标准。这个测试涵盖了包括健康、政治和金融在内的 38 个领域,共有约 800 个问题。这些问题专门设计来检验人们普遍存在的一些错误认知,这些认知往往会使人给出错误的答案 (图 2.2.9)。虽然研究发现更复杂的模型通常答案不够真实,但最新发布的 GPT-4 (RLHF) 在 2024 年早期已在这一标准测试中取得了最佳成绩,得分为 0.6 (图 2.2.10),这个成绩几乎是 2021 年基于 GPT-2 的模型的三倍,显示出大语言模型在不断进步,越来越能提供真实的答案。
在这里插入图片描述
在这里插入图片描述
  正如我们之前提到的,大语言模型 (LLMs) 倾向于产生幻觉,这一点在它们被广泛应用于如法律和医疗这样的关键领域时尤其令人担忧。虽然很多研究都在探索幻觉的原因,但关于频繁发生幻觉的大语言模型及其特别容易出错的领域的研究还相对较少。

  HaluEval 是在 2023 年推出的一个新的基准测试,专门用来评估大语言模型中的幻觉问题。它包含了超过 35,000 个样本,这些样本既有幻觉的也有正常的,用来通过大语言模型进行分析和评价。研究显示,ChatGPT 在其回答中大约 19.5% 的内容是捏造的不可验证信息,涉及语言、气候和技术等多个领域。此外,该研究还检验了目前的大语言模型在识别这些幻觉上的能力。下图展示了一些顶尖的大语言模型在不同任务中识别幻觉的能力,包括问答、知识驱动对话和文本总结等。这些发现强调了幻觉是一个严重且持续的问题。

在这里插入图片描述

2.2 CV

  随着 AI 文字转图片系统的快速进步,人们开发了更为复杂的评估方法。2023 年,斯坦福的研究者推出了全方位评估文转图模型 (HEIM) 的基准测试,该测试全面地从 12 个关键维度对图像生成器进行评估,这些维度在实际应用中极为重要,如图像与文本的对齐 (image-text alignment)、图像的质量 (image quality) 和美观度 (aesthetics)。[9] 该模型的评估依赖于人工评价,这一点非常关键,因为很多自动化指标难以精确地评价图像的各个方面。

  HEIM 的研究结果显示,不存在一个模型能在所有标准上都是最佳的。在评估图像与文字的对齐度(即生成图像与输入文字的契合程度)时,OpenAI 的 DALL-E 2 表现最为出色。在图像质量(判断图像是否接近真实照片)、美观度(视觉吸引力的评估)及创新性(新颖图像生成和避免侵权的能力)上,基于 Stable Diffusion 的梦幻风格照相真实模型得分最高。
在这里插入图片描述

9 HEIM 的 12 个评价标准包括:(1) 对齐 (Alignment): 图像和给定文本的匹配程度有多高? (2) 质量 (Quality): 生成图像的质量如何? (3) 美感 (Aesthetic): 生成图像的审美水平怎样? (4) 创新性 (Originality): 图像展现了多少创意? (5) 推理能力 (Reasoning): 模型能否理解物体、数量及其空间关系? (6) 世界知识 (Knowledge): 模型对世界的了解程度如何? (7) 偏见 (Bias): 生成的图像中有无偏见? (8) 毒性 (Toxicity): 生成的图像是否包含不当内容? (9) 公正性 (Fairness): 生成图像是否有表现上的差异? (10) 稳健性 (Robust): 模型对输入变化的反应是否稳健? (11) 多语言支持 (Multilinguality): 模型是否支持多种语言? (12) 效率 (Efficiency): 模型处理速度快吗?

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/10218.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

常用Linux命令详细总结

一、文档编辑、过滤、查看命令 1、cp 复制文件和目录 -a 复制文件并保持文件属性 -d 若源文件为链接文件,则复制链接文件属性而非文件本身 -i 覆盖文件前提示,如果不要提示,在命令前加上\ -r 递归复制,通常用于目录的复制 …

什么是IP跳变?

IP 跳跃(也称为 IP 跳动)的概念已引起使用代理访问网站的用户的极大关注。但 IP 跳跃到底是什么?为什么它对于各种在线活动至关重要? 在本文中,我们将深入探讨 IP 跳跃的世界,探索其实际应用、用例、潜在问…

读写备份寄存器BKP与实时时钟RTC

文章目录 读写备份寄存器接线图代码 RTC实时时钟接线图代码 读写备份寄存器 接线图 即接个3.3v的电源到VBT引脚 代码 代码效果:第一次写入备份寄存器,下载程序后再注释掉,再进行下载,之前写入的数据还会保存在备份寄存器中&am…

使用 sudo apt upgrade 出现的提示

┌────────────────────────────────────────────────┤ Pending kernel upgrade ├────────────────────────────────────────────────┐ │ …

搭建一个vue3+vant4+vite4+pinia 的移动端h5模板

效果图 项目的创建和组件库的安装 项目创建 pnpm create vite vue3-vant4-vite-pinia-pro-h5注意: node版本控制在 18, 可以通过nvm来管理本地的node版本,具体可以看这篇文章 nvm的简单使用 vant-ui库的安装【这里安装的是 ^4.6.0 版本的】…

Maven- Profile详解

前言 Profile能让你为一个特殊的环境自定义一个特殊的构建&#xff1b;profile使得不同环境间构建的可移植性成为可能。 <project><profiles><profile><build><defaultGoal>...</defaultGoal><finalName>...</finalName><…

掼蛋—开牌三步走

掼蛋是消遣也是一项脑力活动&#xff0c;除了牌运&#xff0c;还要掌握技巧。和大家一起分享一下掼蛋游戏中的“开牌三步走”技巧。 1、快速理牌 目的&#xff1a;潜力最大化 开局时可以快速查看一下自己的同花顺&#xff0c;优先保留不损害其他炸弹的同花顺&#xff0c;并及时…

精益生产咨询公司:深入探讨其独特魅力与核心竞争力

精益生产咨询公司&#xff0c;作为专注于帮助企业实现精益转型和效率提升的专业机构&#xff0c;在现代工业生产中扮演着不可或缺的角色。这些公司不仅具备深厚的行业经验和专业知识&#xff0c;还能够根据企业的实际情况和需求&#xff0c;提供个性化的解决方案和持续的支持服…

用户至上!探索7种常用的用户体验研究方法

用户体验研究是产品开放过程中的重要组成部分&#xff0c;优秀的产品设计与高质量的用户体验是不可分割的。对于产品开发&#xff0c;选择合适的用户体验研究方法在很大程度上决定了产品的使用效果。本文全面阐述了用户体验研究、用户体验研究的重要性和用户体验研究方法&#…

mamba复现—mamba+yolov8魔改(win)

Mamba复现出现的问题 安装下列步骤一步步走 一、 注&#xff1a;若是Windows环境下python一定是3.10版本的&#xff0c;要不然trition无法安装 conda create -n mamba python3.10 conda activate mamba conda install cudatoolkit11.8 -c nvidia pip install torch2.1.1 t…

探索国外静态住宅代理:保护网络安全与隐私的利器

随着互联网的日益发展&#xff0c;网络安全和隐私保护成为越来越多用户关注的焦点。在这个信息爆炸的时代&#xff0c;如何确保网络活动的匿名性和安全性成为了我们必须面对的问题。国外静态住宅代理作为一种新兴的网络技术&#xff0c;为我们提供了有效的解决方案。 &#xf…

目标检测——道路检测数据集

引言 亲爱的读者们&#xff0c;您是否在寻找某个特定的数据集&#xff0c;用于研究或项目实践&#xff1f;欢迎您在评论区留言&#xff0c;或者通过公众号私信告诉我&#xff0c;您想要的数据集的类型主题。小编会竭尽全力为您寻找&#xff0c;并在找到后第一时间与您分享。 …

如何在Springboot项目的Mapper中增加一个新的sql语句

在做项目的过程中&#xff0c;我发现有的时候需要用到一些不在springboot的Mapper中的Sql语句&#xff0c;那么应该如何进行操作呐&#xff1f;&#xff1f; 平常我们创建springbootmybatisPlus项目的时候是这样创建的&#xff1a;&#xff1a; 1、创建实体类 2、创建Mappe…

2024年最新方法下载钉钉群直播回放

链接&#xff1a;百度网盘 请输入提取码 提取码&#xff1a;1234 --来自百度网盘超级会员V10的分享 1.首先解压好所有的压缩包&#xff0c;这个压缩包里面还套着一共逍遥一仙下载器压缩包&#xff0c;也解压 2.进入逍遥一仙下载器文件夹&#xff0c;打开M3U8 V1.4.8 0508.e…

TMS320F280049 CLB模块--FSM(3)

功能框图 FSM有效状态机内部框图如下图所示&#xff0c;可以看到内部有S0 / S1两个状态和下一状态的跳转查找表。还有个输出查找表。 下图是FSM LUT的示意框图。FSM还可以工作在3输入或4输入的查找表模式下。对于输入&#xff0c;EXTRA_EXT_IN1/0可以替换S0/1。 寄存器 参考文…

将python库下载到本地安装—Pypi官网wheel版本选择详解—小白详解版

python库—本地安装文件下载&#x1f680; 在项目中需要在内网环境下配置python的环境&#xff0c;因此需要将用于安装python库的文件下载到本地传到内网环境当中然后再安装&#xff0c;通过这契机我开始了解了一下如何离线下载安装python的第三方库&#xff0c;以及配置本地的…

【Linux】环境变量是什么?如何配置?详解

&#x1f490; &#x1f338; &#x1f337; &#x1f340; &#x1f339; &#x1f33b; &#x1f33a; &#x1f341; &#x1f343; &#x1f342; &#x1f33f; &#x1f344;&#x1f35d; &#x1f35b; &#x1f364; &#x1f4c3;个人主页 &#xff1a;阿然成长日记 …

深入理解JavaScript事件循环Event Loop:宏任务与微任务的奇幻之旅

&#x1f525; 个人主页&#xff1a;空白诗 文章目录 &#x1f389; 引言&#x1f31f; 什么是事件循环&#xff1f;&#x1f4da; 「宏任务」 vs 「微任务」「宏任务」(Macrotask)「微任务」(Microtask)实际应用中的注意事项 &#x1f500; 执行流程概览&#x1f4dd; 代码示例…

算法学习笔记(2)-前缀和

##前缀和 指的是某序列的前n项和&#xff0c;在数学上我们可以理解称为数列的前n项和。前缀和是一种预处理&#xff0c;用于降低查询的时间复杂度。 ##一维前缀和 有一个一维数组x和该数组的前缀和数组y&#xff0c;则x和y具有以下关系&#xff1a; #python代码示例 #关系&am…

上位机图像处理和嵌入式模块部署(树莓派4b和电源供给)

【 声明&#xff1a;版权所有&#xff0c;欢迎转载&#xff0c;请勿用于商业用途。 联系信箱&#xff1a;feixiaoxing 163.com】 前面&#xff0c;我们说过pc电脑和嵌入式设备&#xff0c;两者都可以实现相同的软件功能。但是和pc相比较&#xff0c;嵌入式设备不仅价格更便宜&a…