马斯克推出Grok-1.5,接近GPT-4级别的性能

定于下周发布的Grok-1.5带来了增强的推理和解决问题的能力,并接近于已知的开源和闭源的LLM的性能,包括OpenAI的GPT-4和Anthropic的Claude 3。

马斯克指出,Grok-1.5将为xAI在X平台上的ChatGPT挑战者聊天机器人提供支持,而Grok-2(新模型的继任者)仍在训练阶段。他表示,下一个版本应该能够“在所有指标上超越当前的AI”,但没有分享它可能何时变得可用的具体细节。 

Grok-1.5带来了什么? 

xAI去年11月宣布了Grok-1,称这个AI是以《银河系漫游指南》为模型,几乎可以回答任何问题,以帮助人类在寻求理解和知识的征途中——无论背景或政治观点如何。在GSM8K、HumanEval和MMLU等基准测试中,由xAI分享的数据显示,Grok-1的表现超过了Llama-2-70B和GPT-3.5。

现在,随着Grok-1.5的发布,该公司在先前模型的基础上取得了显著改进,在所有主要基准测试中,包括与编码和数学相关的任务,都实现了显著提升。

 xAI在博客文章中指出:“在我们的测试中,Grok-1.5在MATH基准测试中达到了50.6%的分数,在GSM8K基准测试中达到了90%的分数,这两个数学基准测试涵盖了从小学到高中竞赛问题的广泛范围。此外,它在评估代码生成和问题解决能力的HumanEval基准测试中得分为74.1%。” 

在MMLU基准测试上,评估AI模型在不同任务上的语言理解能力,新模型得分为81.3%,比Grok-1的73%高出显著幅度。 

此外,xAI还确认,Grok-1.5的上下文窗口可达128,000个标记(标记是单词、图像、视频、音频或代码的整个部分或子部分)。这使得模型能够一次性处理和处理大量信息,比Grok-1多16倍,使其更适合分析、总结和提取长文档中的信息。它甚至可以处理更长、更复杂的提示,同时仍然保持遵循指令的能力。 

接近OpenAI和Anthropic 

凭借增强的推理和解决问题的能力,Grok-1.5不仅在基准测试中胜过其前身,而且还接近流行的开放和封闭源模型,包括Gemini 1.5 Pro、GPT-4和Claude 3。 

例如,在MMLU上,Grok-1.5的81.3%得分超过了最近推出的Mistral Large,但落后于Gemini 1.5 Pro(83.7%)、GPT-4(86.4%, 

截至2023年3月)和Claude 3 Opus(86.8%)。在GSM8K基准测试上也注意到了类似的差距,xAI模型仅落后于Google、OpenAI和Anthropic的产品。 

值得注意的是,Grok-1.5唯一看起来有优势的基准是HumanEval,在那里它的表现超过了所有模型,除了Claude 3 Opus。xAI希望继续这些改进,并通过Grok-2提供进一步的性能提升,据马斯克称,应该在所有指标上超越当前的AI。该模型目前正在训练中。 

技术顾问Brian Roemmele表示,根据他与Grok-1的工作,Grok-2“在发布时将成为最强大的LLM AI平台之一。它将在几乎所有指标上超越OpenAI。” 

Grok-1.5的可用性 

至于Grok-1.5,xAI计划下周开始部署。公司表示,该模型最初将提供给早期测试者和那些已经在X平台(Twitter)上使用Grok聊天机器人的用户——实时访问平台上的所有帖子。推出将分阶段进行,公司将改进模型并引入几个新功能——可能包括一种新的不受限制的有趣模式——同时逐步使其对更广泛的用户群体可用。 

当马斯克在X上推出Grok时,被视为推动Grok和X的采用。他首先将AI作为平台的“高级+”订阅的一部分,价格为每月16美元。然而,就在几天前,这位亿万富翁分享说,聊天机器人也将为支付8美元每月的高级订阅者启用。在另一个更新中,他还确认,拥有一定级别的验证订阅者的关注者将免费获得高级和高级+订阅的好处,包括Grok。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/799830.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

交易要想成功澳福总结几点

100%使用基本面分析的投资者能保证每次交易都能成功吗?100%使用技术分析的投资者能保证每次交易都能成功吗?在fpmarkets澳福看来无论是基本面分析还是技术分析都不能保证100%交易成功。 投资者不能只依赖一种分析进行投资交易。在fpmarkets澳福看来成功的…

GD32F470_US-016 模拟电压输出 双量程 模拟量 超声波测距模块 高精度

2.18 US-016电压式超声波测距传感器 US-016是市场上唯有的一款模拟量输出的超声波测距模块,输出的模拟电压和距离值成正比,可以方便的和其他系统相连,US-016工作稳定可靠。 US-016超声波测距模块可实现2cm~3m的非接触测距功能,供…

【LeetCode热题100】74. 搜索二维矩阵(二分)

一.题目要求 给你一个满足下述两条属性的 m x n 整数矩阵: 每行中的整数从左到右按非严格递增顺序排列。每行的第一个整数大于前一行的最后一个整数。 给你一个整数 target ,如果 target 在矩阵中,返回 true ;否则,…

Dapr(四) Dapr核心组件的使用二

结合前三期 Dapr(一) 基于云原生了解Dapr(Dapr(一) 基于云原生了解Dapr-CSDN博客) Dapr(二) 分布式应用运行时搭建及服务调用(Dapr(二) 分布式应用运行时搭建及服务调用-CSDN博客) Dapr(三) Dapr核心组件的使用一(Dapr(三) Dapr核心组件的使用一-CSDN博客)。下一期使用Dapr中的…

LangChain-12 Routing By Semantic Similarity 让GPT根据不明确的问题 自动选择工具集 根据语义自动路由

问题背景 平常我们设计程序的时候,会这么写: // 随便举例 String type paramDTO.getType(); if (type.equals("吃饭")) {// do } else if (type.equals("喝水")) {// do } else {// do }此时如果type传入的不是数字,那…

docker使用arthas基本教程

供参考也是自己的笔记 docker容器下使用遇到的问题:大致是连接不上1号进程 我这边主要的问题是用户权限问题,docker容器使用aaa用户启动,那个在docker容器内,需要使用aaa用于启动 docker 容器如何使用arthas #实现下载好arthas …

2604B吉时利2604B数字源表

181/2461/8938产品概述: 型号2604B用于台式应用,不包括TSP-Link、接触检查或数字I/O功能。关于系统使用,请参见型号2602B 吉时利2600B系列源表SMU仪器是业界领先的电流/电压源和测量解决方案,采用了吉时利第三代SMU技术。2600B系…

计算机毕业设计java 基于Android的拼图游戏app

当今社会,随着电子信息技术的发展,电子游戏也成为人们日常生活的一部分。这种娱乐方式结合了日新月异的技术,在游戏软件中结合了多种复杂技术。拼图游戏流行在各种电子产品上,从计算机,掌上游戏机到如今的手机&#xf…

山海鲸智慧交通:可视化技术助力城市交通管理升级

随着城市化进程的加速和汽车保有量的不断增加,交通拥堵、安全事故频发等问题日益凸显。在这样的背景下,智慧交通成为了解决城市交通难题的重要途径。山海鲸智慧交通可视化解决方案,以其创新的技术和卓越的性能,为城市交通管理提供…

1688详情API接口:解锁多元化应用场景java php c++

随着互联网的快速发展,数据交换和信息共享已成为企业日常运营不可或缺的一部分。在这样的背景下,API(应用程序接口)接口作为实现数据互通的重要工具,受到了越来越多企业的青睐。1688详情API接口作为阿里巴巴旗下的重要…

【算法每日一练]-动态规划(保姆级教程 篇17 状态压缩)

目录 今日知识点: 把状态压缩成j,dp每行i的布置状态,从i-1和i-2行进行不断转移 把状态压缩成j,dp每行i的布置状态,从i-1行进行状态匹配,然后枚举国王数转移 POJ1185:炮兵阵地 思路: 题目:互…

TRIZ理论在创新实践中的优势体现在哪些地方?

当下,创新已成为推动企业和社会发展的关键动力。TRIZ,即发明问题解决理论。作为一套系统化的创新方法论,它通过分析大量专利和发明案例,总结出一套解决问题的通用方法和流程。那么,TRIZ理论在创新实践中的优势具体体现…

振弦采集仪在地下水位监测中的可行性研究与实践

振弦采集仪在地下水位监测中的可行性研究与实践 地下水位的监测对于水资源管理和地下水环境保护具有重要意义。传统的地下水位监测方法主要包括井水位计、压力传感器和雨水入渗监测等。然而,这些方法存在着一些局限性,如需要人工维护、监测周期长、监测…

KylinOS银河麒麟安装部署AI服务

KylinOS银河麒麟安装部署AI服务(CPU版本) 查看操作系统 [jnapp8160fcc7cf1b ~]$ nkvers ############## Kylin Linux Version ################# Release: Kylin Linux Advanced Server release V10 (Lance)Kernel: 6.2.0-36-genericBuild: Kylin Linux…

vue ts 应用梳理

文章目录 前言一、页面传值1.1 [props](https://cn.vuejs.org/guide/components/props.html)1.2 [emit](https://cn.vuejs.org/guide/components/events.html)1.3 [store](https://pinia.vuejs.org/zh/getting-started.html) 二、实时计算2.1 [watch](https://cn.vuejs.org/gui…

ArcGISPro 如何升级某项Python库且不影响其运行

升级包scipy 可以看出scipy当前版本是1.6.2 利用不依赖包升级 pip install --upgrade scipy --no-deps 结果 但是显示还是之前的版本

Linux系统下关闭Java进程

关闭Java进程具体分为两步: 1.ps查进程ID 2.kill杀进程 具体的命令如下: ps查进程ID:ps -ef | grep java kill杀进程:kill -9 对应进程号 linux下解除被占用的端口号: 1.查看8088端口是否被占用: netsta…

【教程】iOS Swift应用加固

🔒 保护您的iOS应用免受恶意攻击!在本篇博客中,我们将介绍如何使用HTTPCORE DES加密来加固您的应用程序,并优化其安全性。通过以下步骤,您可以确保您的应用在运行过程中不会遭受数据泄露和未授权访问的风险。 摘要 …

PD虚拟机软件下载:在 Mac 上流畅运行 Windows 游戏!

本想一台 MacBook 走天下,奈何有些软件仅提供了 Windows 端,在 macOS 上打不开 EXE 文件,比如炒股软件、会计软件、游戏、工科专业软件等。 由于苹果芯片架构的变化,新款 Mac 想要安装双系统已经不太现实,有没有更简单…

docker 搭建多个Linux系统环境 安装多个不同语言的项目

docker 搭建多个Linux系统环境 安装多个不同语言的项目 宝塔dockers可视化界面 https://blog.51cto.com/u_16213709/9473968