太多模型了!

多少个 AI 模型才算太多?这需要看你的角度。但每周 10 个可能有点过头了。在过去几天里,我们大概就看到了这么多新模型的推出,要说这些模型彼此之间有何对比,甚至一开始就能比较,都变得越来越难。那么这到底有什么意义呢?

我们正处于 AI 发展的一个奇怪时期,尽管整个过程一直都很奇怪。我们看到从小型开发者到大型资金雄厚的公司,各种大小模型层出不穷。

不如我们来简单列举一下这周推出的几个模型,看看各自的特点。

  1. LLaMa-3: Meta 最新推出的"开放"旗舰大型语言模型,受到广泛关注。

  2. Mistral 8×22: 一个来自法国的"专家组合"大型模型,曾经宣称开放,但如今有所收缩。

  3. Stable Diffusion 3 Turbo: Stability 公司的 SD3 模型升级版,搭配了新的 API,借鉴了 OpenAI 模型命名中的"Turbo"。

  4. Adobe Acrobat AI Assistant: 由文档巨头 Adobe 推出,主要是基于 ChatGPT 的"与文档对话"功能。

  5. Reka Core: 一个由前大型 AI 公司员工组建的小团队开发的多模态模型,与大型模型相当竞争。

  6. Idefics2: 一个更开放的多模态模型,建立在 Mistral 和 Google 较小模型的基础之上。

  7. OLMo-1.7-7B: AI2 公司 LLM 模型的更大版本,是通往 70B 规模模型的一个阶段。

  8. Pile-T5: 基于可靠的 T5 模型,针对代码数据库 Pile 进行微调,提升了编码能力。

  9. Cohere Compass: 一个专注于整合多种数据类型的"嵌入模型",以覆盖更多应用场景。

  10. Imagine Flash: Meta 最新的图像生成模型,采用新的蒸馏方法来加速扩散,同时保持质量。

  11. Limitless: 一个基于个人历史数据的"个性化 AI"应用,跨网页、桌面和可穿戴设备。

  12.  Wildcard:GPT4.0,Google Play,Claude,Overleaf等等平台现已可通过WildCard订阅

这已经是11个了,因为在我写这篇文章的时候,又有一个新的模型被宣布了。这并不是本周发布或预览的所有模型!这只是我们看到并讨论过的那些。如果我们稍微放松一下纳入的条件,就会有几十个:一些微调过的现有模型,一些像 Idefics 2 这样的组合,一些实验性或小众的模型,等等。更不用提本周新推出的用于构建(torchtune)和对抗(Glaze 2.0)生成式AI的工具!

我们该如何看待这场永无止境的洪流呢?我们无法对它们全部进行"评论"。那么,我们如何帮助您这些读者理解并跟上所有这些变化呢?

事实是,您不需要跟上所有的变化。像ChatGPT和Gemini这样的一些模型已经发展成为整个网络平台,涵盖了多种用例和接入点。而其他大型语言模型,如LLaMa或OLMo,尽管在基本架构上有所共享,但实际上并不承担相同的角色。它们旨在作为服务或组件在幕后运行,而不是作为品牌名称出现在前台。

对这两种情况存在一些有意的混淆,因为模型开发者希望借用与主要AI平台发布相关的一些炒作。每个人都想让你认为他们的发布是重要的。但事实上,它可能对某人很重要,却几乎肯定不是你。

从汽车这样一个广泛而多样的类别的角度来看待这个问题。当汽车刚刚发明的时候,你只能买"一辆汽车"。后来,你可以选择大车、小车和拖拉机。如今,每年都会推出数百种汽车,但你可能只需要关注其中的十分之一,因为其余九成都不是你需要的车型或者不符合你对汽车的理解。同样,我们正从人工智能的大小型/拖拉机时代过渡到泛滥时代,即使是人工智能专家也跟不上不断涌现的新模型。

这个故事的另一面是,在ChatGPT和其他大型模型出现之前,我们已经处于这个阶段很长时间了。7、8年前,关于这个话题的讨论要少得多,但我们仍然一直在关注它,因为这显然是一项等待突破时刻的技术。不断有论文、模型和研究成果发布,SIGGRAPH和NeurIPS等会议上也充满了机器学习工程师交流心得、互相借鉴的场景。

那项活动每天仍在进行。但由于人工智能已经成为一个大生意 - 可以说是目前科技领域最大的生意 - 这些发展已经被赋予了一些额外的重要性,因为人们好奇是否会有一种像ChatGPT对其前辈那样的巨大飞跃。

事实真相是,这些模型中没有一个会有那种大的飞跃,因为OpenAI的进步是建立在机器学习架构的根本性变革之上的,而这种变革已经被其他公司所采用,并且还没有被超越。我们现在只能期待一些增量式的改进,比如在合成基准上提高一两个点,或者语言和图像稍微更有说服力。

这是否意味着这些模型都不重要?当然不是。没有2.1、2.2、2.2.1等版本,就不可能从2.0版本跳到3.0版本。有时这些进步是有意义的,解决了严重的缺陷,或暴露了意想不到的漏洞。我们试图报道有趣的那些,但这只是全部数量的一小部分。事实上,我们正在撰写一篇文章,收集所有我们认为ML爱好者应该了解的模型,大约有一打之多。

不要担心:当一个重大的突破出现时,你会知道的,不仅仅因为TechCrunch在报道它。它对你来说会像对我们一样显而易见。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/1272.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MacOS 文件句柄数不够 Error: EMFILE: too many open files

MacOS 文件句柄数不够 Error: EMFILE: too many open files 直奔主题-解决方案 启动项目发现报错:Error: EMFILE: too many open files;经排查是因为单个微应用项目较大,发布过程中已经超过了mac默认的文件监听上限对文件系统进行大量并发调用…

互联网技术知识点总览——算法和数据结构

简介 本文对算法和数据结构的知识点整体框架进行梳理和分享如下:

Ubuntu无法安装向日癸15.2.0.63062_amd64.deb最新版

Ubuntu安装向日葵远程控制 安装包下载 安装方式 方式一:运行安装包安装 方式二:终端命令安装 通过以下教程可以快速的安装向日葵远程控制,本教程适用于Ubuntu18.04/20.04/22.04 安装包下载 进入向日葵远程控制下载官网下载向日葵远程控制Lin…

黑马程序员Linux简单入门学习笔记

Linux介绍 内核提供系统最核心的功能,如: 调度CPU、调度内存、调度文件系统、调度网络通讯、调度等系统级应用程序,可以理解为出厂自带程序,可供用户快速上手操作系统,如:文件管理器、任务管理器、图片查看、音乐播放等 目录结构 …

GlobalRouting - FastRoute布线算法运行流程(二)

文章目录 1. 运行步骤 FT::run 1. 运行步骤 首先生成2D的布线,然后进行层分配以及生成3D的布线,最后计算结果并返回。具体流程如下: 读取查找表flut, POST9.dat, POWV9.dat使用查找表生成RSMT,将多pin线网拆分为2pin线网进行第…

深度学习--CNN卷积神经网络(附图)

框架 让我们先看一下CNN的框架 卷积层中后是ReLu激活函数 ,然后是深化池,之后是全连接,最后进行Softmax进行归一化。 所以,我们先逐一了解一下它们各个部分 全连接层 全连接层也称感知机,BP神经网络 全连接层&…

cpp中的右值引用()及其相关拓展知识

cpp中的右值引用 右值引用(rvalue reference)是 C11 引入的一个新特性,用于表示对临时对象(右值)的引用。右值是指那些无法被修改的临时对象,比如函数返回的临时对象、移动语义中的源对象等。右值引用的语…

机器学习常用评价指标的公式和含义

在机器学习中,特别是在分类任务中,评价模型性能常用以下指标。这些指标主要基于混淆矩阵,该矩阵记录了实际类别与模型预测类别的对应情况。下面是这些指标的定义和计算公式: 1. TP(True Positives): - …

seatable部署之后network error【seatable】

这里写自定义目录标题 问题汇总 问题汇总 seatable服务部署后,组件显示正常运行,创建表单,显示Network error 点击错误信息,查看其跳转至另一个页面

最大子数组和(贪心)

53. 最大子数组和 - 力扣(LeetCode) 题目描述 给你一个整数数组 nums ,请你找出一个具有最大和的连续子数组(子数组最少包含一个元素),返回其最大和。 子数组 是数组中的一个连续部分。 样例输入 示例…

AI大模型探索之路-实战篇1:基于OpenAI智能翻译助手实战落地

文章目录 前言一、需求规格描述二、系统架构设计三、技术实施方案四、核心功能说明五、开源技术选型六、代码实现细节1.图形用户界面(GUI)的开发2.大型模型调用的模块化封装3.文档解析翻译结果处理 总结 前言 在全球化的浪潮中,语言翻译需求…

节点加密技术:保障数据传输安全的新利器

随着信息技术的快速发展,网络数据的安全传输问题日益凸显。节点加密技术作为一种新兴的加密手段,正逐渐成为保障数据传输安全的重要工具。本文将探讨节点加密技术的原理、应用及其优势,并分析其未来的发展趋势。 节点加密技术的原理 节点加密…

(OSKS)代币:狂热的Meme币投资者指南

你那位对加密货币几乎一窍不通的朋友却是富豪。为什么?因为他们买了一枚硬币,上面有一只戴着帽子的狗。 帽子一直戴着,所以价格一直在上涨。该Meme币即将成为拉斯维加斯球体的主流,这要归功于社区筹集了 650,000 美元的酷炫资金来…

Redis集合[持续更新]

Redis(全称:Remote Dictionary Server 远程字典服务)是一个开源的使用 ANSI C 语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value 数据库,并提供多种语言的 API。 数据结构 1. string 字符串 字符串类型是 Redis 最…

Unity实现动态数字变化

最近的项目需要动态显示数字,所以使用Text组件,将数字进行变化操作过程记录下来。 一、UI准备 1、新建一个Text组件 2、新建C#脚本 3、将Text挂载到脚本上 二、函数说明 1、NumberChange 方法 NumberChange 方法接收四个参数:初始数字 in…

项目管理-项目范围管理

目录 一、概述 二、范围计划的编制 2.1 项目中包含的范围 2.1.1 产品范围 2.1.2 工作范围 2.1.3 总结 2.2 范围计划编制的成果 2.2.1 范围管理计划 2.2.1.1 概述 2.2.1.2 内容 三、创建工作分解结构 3.1 概述 3.2 WBS目的和用途 3.3 WBS分层结构 3.3.1 分层结构图…

第三届上海市算法竞赛T1评测队列

题目描述 在一次算法比赛中,有 n 个程序提交到了竞赛平台上,测试每个程序需要两步:先编译,然后运行。 竞赛平台有两台服务器,一台只负责编译,另一台只负责运行,编译第 i 个程序的时间为 ai​&…

C/C++位运算符

位运算是指按二进制进行的运算[more] 在程序中,常常需要处理二进制位的问题。C/C语言提供了6个位操作运算符。这些运算符只能用于整型操作数,即只能用于带符号或无符号的char,short,int与long类型。 在实际应用中,建议用unsigned整型操作数&…

Java获取文件路径

第一种: File f new File(this.getClass().getResource("/").getPath()); System.out.println(f);结果: C:\Users\xiaob\javasrc\project\request-pro\target\classes 获取当前类的所在工程路径; 如果不加“/” File f new File(this.getClass().getR…

[Android]SharedPreferences可视化管理key-value数据存储

1.定义 PrefsManager 创建一个用于管理 SharedPreferences 的单例工具类,并使用泛型方法来简化对不同类型数据的存取操作,该类提供了泛型的 get 和 set 方法来处理各种数据类型。 import android.content.Context import android.content.SharedPrefer…