全新的大语言模型Grok-2,最新测评!!

埃隆·马斯克再次引发轰动,他旗下的xAI公司推出了全新的大语言模型Grok-2!

最新的Grok-2测试版已经发布,用户可以在𝕏平台上体验小版本的Grok-2 mini。

马斯克还通过一种谜语般的方式揭开了困扰大模型社区一个多月的谜团:Lmsys大模型竞技场上那个神秘的匿名模型sus-column-r,实际上就是Grok-2的化身。

【最新版】手把手Claude 3.5 Sonnet 详细步骤注册方法!_claude 3.5 sonnet 注册


 

sus-column-r在排行榜上积累了超过一万次的人类投票,目前它已经与GPT-4o的API版并列第三。

如何使用WildCard正确方式打开Claude,目前 WildCard 支持的服务非常齐全!

官网有更详细介绍:WildCard

在xAI的内部测试中,Grok-2在常识(如MMLU、MMLU-Pro)、数学竞赛问题(MATH)以及研究生水平科学知识(GPQA)等多个领域表现出色,与其他前沿模型不相上下。

此外,Grok-2在视觉任务方面尤为擅长,尤其是在视觉数学推理(MathVista)方面达到了SOTA(State of the Art)的水平。

不过,有趣的是,在展示这些结果时,xAI刻意将Grok-2与分数最高的GPT-4o和Claude-3.5-Sonnet分开,似乎试图在图表上制造一些心理影响。

然而,分数只是数字,更关键的是实际测试效果。

接下来进入Grok-2的一手实测环节。

如果你是𝕏/推特平台的付费用户,可以直接进入Grok频道进行试玩!

即便不付费,也可以在Lmsys大模型竞技场上选择sus-column-r进行体验。

值得一提的是,付费用户只能玩到小杯mini版,而免费用户则能体验更大的版本,这一点相当厚道。

由于Grok-2能够访问𝕏上的实时数据,因此它可以总结当天的新闻,并在开启趣味模式后附加一些幽默的评论。

此外,付费版本还接入了最新的开源AI生图模型Flux.1,该模型能够将中文提示词翻译成英文来理解。

用户可以在Grok-2上继续使用中文提问,它甚至在这款尚未发售的游戏《黑神话:悟空》之前就了解。

Grok-2不仅能准确指出该游戏的预定发售日期为8月20日,还能识别游戏使用的虚幻5引擎,并总结𝕏平台上网友的讨论内容。

然而,由于𝕏平台上提供的只是Grok-2的mini版本,强度测试还需要在大模型竞技场上进行。在这个竞技场中,用户可以直接让Grok-2(即sus-column-r)与GPT-4o进行对比。

在最近热门的智商测试问题“9.9和9.11哪个更大”中,Grok-2的表现明显超越了ChatGPT的最新版本。

然而,在另一项流行的测试“strawberry中有几个r”中,两者表现都不尽如人意(虽然多次尝试后,两者都有可能答对,但这种情况较为罕见)。

不过,特斯拉的股东们对此并不满意。据《华尔街日报》报道,马斯克一直在将人才、数据和GPU资源从特斯拉转移至xAI。

目前,xAI已经雇佣了至少11名曾在特斯拉工作的员工,其中六人曾在Autopilot团队工作。此外,马斯克还要求英伟达优先为xAI供应GPU资源,原本这些资源是为特斯拉保留的。

他还公开表示,特斯拉收集的大量视觉数据可以用来训练xAI的模型。

这一举动引发了股东们的不满,至少三名特斯拉股东因马斯克将资源转移到xAI而对他提起诉讼,指控他损害了特斯拉投资者的利益。

目前,此案件正在特拉华州法院审理。

这个新推出的Grok-2模型在业界掀起了不小的波澜,尤其是马斯克为其投入的巨大资源和战略转移,引发了广泛的关注和争议。

随着Grok-2继续扩展其应用场景,尤其是在大模型领域与其他顶级模型的竞争中,其未来的发展前景值得密切关注。


如何使用WildCard正确方式打开Claude,目前 WildCard 支持的服务非常齐全!

官网有更详细介绍:​​​​​​WildCard

推荐阅读:

Claude 3.5 Sonnet引入了LaTeX公式渲染功能!!
 

【最新版】手把手Claude 3.5 Sonnet 详细步骤注册方法!_claude 3.5 sonnet 注册

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/52610.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java笔试面试题AI答之面向对象(2)

文章目录 7. Java中的组合、聚合和关联有什么区别?1. 关联(Association)2. 聚合(Aggregation)3. 组合(Composition)总结 8. 请设计一个符合开闭原则的设计模式的例子?策略模式示例1.…

每日刷力扣SQL(九)

1484.按日期分组销售产品 转载 首先,根据题目的描述以及给出的示例。我们能得到结果集中各个字段的含义如下: ① sell_date:卖出产品的日期(应该不用解释了) ② num_sold:当前这个日期下&…

工业软件架构2:(QT和C++实现)

工业软件架构 - 事件驱动 - 2 1. 命令模式的使用命令模式(Command Pattern)命令模式的基本概念命令模式的运作机制1. 定义命令接口2. 实现具体命令3. 调用者类4.扩展命令模式的功能撤销命令:宏命令:总结2. MVVM 模式的使用View(界面)部分则通过绑定与 ViewModel 交互:3.…

FFmpeg的入门实践系列三(基础知识)

欢迎诸位来阅读在下的博文~ 在这里,在下会不定期发表一些浅薄的知识和经验,望诸位能与在下多多交流,共同努力 文章目录 前期博客一、音视频常用术语二、FFmpeg库的结构介绍三、FFmpeg的常用函数初始化封装格式编解码器相关 四、FFmpeg常用的数…

FastCGI简述

FastCGI (FCGI) 是一种协议,用于改善 Web 服务器和应用程序之间的通信效率。它是在 CGI(Common Gateway Interface)的基础上发展起来的,旨在解决 CGI 在处理大量并发请求时存在的性能问题。 CGI的由来 最早的Web服务器只能简单地…

WHAT - Jamstack(JavaScript, APIs, and Markup 与 Serverless 无服务器架构)

目录 一、介绍1. JavaScript2. APIs3. Markup4. Jamstack 的优势5. Jamstack 架构的工作流程 二、常见的 Jamstack 技术栈三、无服务器架构(Serverless)无服务器架构的核心概念1. 函数即服务(FaaS)2. 后端即服务(BaaS&…

解决 JS WebSocket 心跳检测 重连

解决 JS WebSocket 心跳检测 重连 文章目录 解决 JS WebSocket 心跳检测 重连一、WebSocket 心跳检测的作用二、心跳检测的处理方案1. 创建 WebSocket 连接2. 心跳参数设置3. 心跳检测逻辑4. 心跳包响应处理5. 断线重连机制 三、总结 一、WebSocket 心跳检测的作用 WebSocket 是…

序列化组件对比

1、msgpack介绍 1.MsgPack产生的数据更小,从而在数据传输过程中网络压力更小 2.MsgPack兼容性差,必须按照顺序保存字段 3.MsgPack是二进制序列化格式,兼容跨语言 官网地址: https://msgpack.org/ 官方介绍:Its lik…

C++ 移动构造函数为什么设置noexcept?

答案显然是&#xff1a; 移动构造函数设置了noexcept后STL的容器可以显著提高性能。 For example: class MyClass { public:MyClass(int v) { val v; }MyClass(const MyClass& o) {val o.val;std::cout << "Copy constructor " << val << …

Go 语言协程管理精解

1.基础 协程切换需要操作寄存器&#xff0c;这些操作需要通过汇编辅助实现。另外&#xff0c;每一个协程都有一个协程栈&#xff0c;实际上协程栈也是有结构的。汇编程序和栈结构这些概念可能大部分开发者都不太了解&#xff0c;在介绍协程管理之间&#xff0c;先简要介绍。 1…

一、undo log、Buffer Pool、WAL、redo log

目录 1、undo log2、Buffer Pool3、WAL4、redo log5、总结6、问题 1、undo log undo log日志是一种用于撤销回退的逻辑日志&#xff0c;在事务未提交前会记录相反的操作到undo log&#xff0c;当事务回滚&#xff0c;使用undo log 进行回滚&#xff0c;保证了事务的原子性。MV…

【生活英语】1、高兴与难过

【生活英语】1、高兴与难过 一、我非常非常开心二、心情三、不开心四、运气五、英语对话1、We broke up2、中奖了 一、我非常非常开心 (1) I’m really happy. (2) I’m really overjoyed. (3) I couldn’t be happier. I couldn’t agree with you more. 我非常赞同你。 (4) …

C++ TinyWebServer项目总结(8. 高性能服务器程序框架)

《Linux 高性能服务器编程》一书中&#xff0c;把这一章节作为全书的核心&#xff0c;同时作为后续章节的总览。这也意味着我们在经历了前置知识的学习后&#xff0c;正式进入了 Web 服务器项目的核心部分&#xff01; 前置内容回顾&#xff1a; 1. C TinyWebServer项目总结&…

每日一问:GET请求和POST请求的区别

每日一问&#xff1a;GET请求和POST请求的区别 在Web开发中&#xff0c;GET请求和POST请求是最常见的两种HTTP请求方法。尽管它们在功能上有许多相似之处&#xff0c;但在使用场景、数据传递方式、缓存策略等方面存在显著差异。了解这些区别不仅有助于我们在开发中做出正确的选…

Docker拉取镜像-2024-07-有效

Docker拉取镜像-有效 配置加速地址 首先&#xff0c;创建Docker配置目录&#xff1a;sudo mkdir -p /etc/docker然后&#xff0c;编辑daemon.json文件&#xff0c;添加以下加速地址&#xff1a;sudo tee /etc/docker/daemon.json <<-EOF {"registry-mirrors"…

go gc信息如何查看

目录 1.几种常见方法1.1.设置环境变量 GODEBUG打印GC日志1.2.使用 debug.ReadGCStats1.3.使用 runtime.ReadMemStats 2.GC日志打印示例3.参考 在Go语言中&#xff0c;可以通过设置环境变量和使用运行时包中的调试功能来打印垃圾回收&#xff08;GC&#xff09;的信息。 1.几种…

等保测评中的安全测试方法

等保测评&#xff0c;即信息安全等级保护测评&#xff0c;是我国网络安全领域的重要评估机制&#xff0c;用于验证网络系统或应用是否满足相应的安全保护等级要求。在等保测评中&#xff0c;安全测试方法扮演着至关重要的角色。本文将详细介绍等保测评中常用的安全测试方法及其…

LinkedHashMap和TreeMap的基本使用

一.LinkedHashMap集合&#xff1a;&#xff08;是HashMap集合的儿子&#xff0c;Map集合的孙子&#xff09; 1.特点&#xff1a; 2.代码实现&#xff1a; 1)键的唯一性&#xff1a; package com.itheima.a01myMap; ​ import java.util.LinkedHashMap; ​ public class A07_…

二十三种模式之单例模式(基础了解)

1.设计模式的分类 创建型模式(五种)&#xff1a;工厂方法模式、单例模式、抽象工厂模式、原型模式、建造者模式。结构型模式(七种)&#xff1a;适配器模式、代理模式、装饰器模式、桥接模式、外观模式、享元模式、组合模式。行为型模式(十一种)&#xff1a;状态模式、模板方法…

Flamingo中的Perceiver Resampler

在 Flamingo 模型中&#xff0c;Perceiver Resampler 是一个关键组件&#xff0c;用于将输入的多模态数据&#xff08;如图像和文本&#xff09;转化为适合Transformer处理的表示形式。具体来说&#xff0c;它是为了解决高维视觉输入&#xff08;如图像&#xff09;和低维语言表…