全新的大语言模型Grok-2,最新测评!!

埃隆·马斯克再次引发轰动,他旗下的xAI公司推出了全新的大语言模型Grok-2!

最新的Grok-2测试版已经发布,用户可以在𝕏平台上体验小版本的Grok-2 mini。

马斯克还通过一种谜语般的方式揭开了困扰大模型社区一个多月的谜团:Lmsys大模型竞技场上那个神秘的匿名模型sus-column-r,实际上就是Grok-2的化身。

【最新版】手把手Claude 3.5 Sonnet 详细步骤注册方法!_claude 3.5 sonnet 注册


 

sus-column-r在排行榜上积累了超过一万次的人类投票,目前它已经与GPT-4o的API版并列第三。

如何使用WildCard正确方式打开Claude,目前 WildCard 支持的服务非常齐全!

官网有更详细介绍:WildCard

在xAI的内部测试中,Grok-2在常识(如MMLU、MMLU-Pro)、数学竞赛问题(MATH)以及研究生水平科学知识(GPQA)等多个领域表现出色,与其他前沿模型不相上下。

此外,Grok-2在视觉任务方面尤为擅长,尤其是在视觉数学推理(MathVista)方面达到了SOTA(State of the Art)的水平。

不过,有趣的是,在展示这些结果时,xAI刻意将Grok-2与分数最高的GPT-4o和Claude-3.5-Sonnet分开,似乎试图在图表上制造一些心理影响。

然而,分数只是数字,更关键的是实际测试效果。

接下来进入Grok-2的一手实测环节。

如果你是𝕏/推特平台的付费用户,可以直接进入Grok频道进行试玩!

即便不付费,也可以在Lmsys大模型竞技场上选择sus-column-r进行体验。

值得一提的是,付费用户只能玩到小杯mini版,而免费用户则能体验更大的版本,这一点相当厚道。

由于Grok-2能够访问𝕏上的实时数据,因此它可以总结当天的新闻,并在开启趣味模式后附加一些幽默的评论。

此外,付费版本还接入了最新的开源AI生图模型Flux.1,该模型能够将中文提示词翻译成英文来理解。

用户可以在Grok-2上继续使用中文提问,它甚至在这款尚未发售的游戏《黑神话:悟空》之前就了解。

Grok-2不仅能准确指出该游戏的预定发售日期为8月20日,还能识别游戏使用的虚幻5引擎,并总结𝕏平台上网友的讨论内容。

然而,由于𝕏平台上提供的只是Grok-2的mini版本,强度测试还需要在大模型竞技场上进行。在这个竞技场中,用户可以直接让Grok-2(即sus-column-r)与GPT-4o进行对比。

在最近热门的智商测试问题“9.9和9.11哪个更大”中,Grok-2的表现明显超越了ChatGPT的最新版本。

然而,在另一项流行的测试“strawberry中有几个r”中,两者表现都不尽如人意(虽然多次尝试后,两者都有可能答对,但这种情况较为罕见)。

不过,特斯拉的股东们对此并不满意。据《华尔街日报》报道,马斯克一直在将人才、数据和GPU资源从特斯拉转移至xAI。

目前,xAI已经雇佣了至少11名曾在特斯拉工作的员工,其中六人曾在Autopilot团队工作。此外,马斯克还要求英伟达优先为xAI供应GPU资源,原本这些资源是为特斯拉保留的。

他还公开表示,特斯拉收集的大量视觉数据可以用来训练xAI的模型。

这一举动引发了股东们的不满,至少三名特斯拉股东因马斯克将资源转移到xAI而对他提起诉讼,指控他损害了特斯拉投资者的利益。

目前,此案件正在特拉华州法院审理。

这个新推出的Grok-2模型在业界掀起了不小的波澜,尤其是马斯克为其投入的巨大资源和战略转移,引发了广泛的关注和争议。

随着Grok-2继续扩展其应用场景,尤其是在大模型领域与其他顶级模型的竞争中,其未来的发展前景值得密切关注。


如何使用WildCard正确方式打开Claude,目前 WildCard 支持的服务非常齐全!

官网有更详细介绍:​​​​​​WildCard

推荐阅读:

Claude 3.5 Sonnet引入了LaTeX公式渲染功能!!
 

【最新版】手把手Claude 3.5 Sonnet 详细步骤注册方法!_claude 3.5 sonnet 注册

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/52610.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

FFmpeg的入门实践系列三(基础知识)

欢迎诸位来阅读在下的博文~ 在这里,在下会不定期发表一些浅薄的知识和经验,望诸位能与在下多多交流,共同努力 文章目录 前期博客一、音视频常用术语二、FFmpeg库的结构介绍三、FFmpeg的常用函数初始化封装格式编解码器相关 四、FFmpeg常用的数…

FastCGI简述

FastCGI (FCGI) 是一种协议,用于改善 Web 服务器和应用程序之间的通信效率。它是在 CGI(Common Gateway Interface)的基础上发展起来的,旨在解决 CGI 在处理大量并发请求时存在的性能问题。 CGI的由来 最早的Web服务器只能简单地…

解决 JS WebSocket 心跳检测 重连

解决 JS WebSocket 心跳检测 重连 文章目录 解决 JS WebSocket 心跳检测 重连一、WebSocket 心跳检测的作用二、心跳检测的处理方案1. 创建 WebSocket 连接2. 心跳参数设置3. 心跳检测逻辑4. 心跳包响应处理5. 断线重连机制 三、总结 一、WebSocket 心跳检测的作用 WebSocket 是…

序列化组件对比

1、msgpack介绍 1.MsgPack产生的数据更小,从而在数据传输过程中网络压力更小 2.MsgPack兼容性差,必须按照顺序保存字段 3.MsgPack是二进制序列化格式,兼容跨语言 官网地址: https://msgpack.org/ 官方介绍:Its lik…

一、undo log、Buffer Pool、WAL、redo log

目录 1、undo log2、Buffer Pool3、WAL4、redo log5、总结6、问题 1、undo log undo log日志是一种用于撤销回退的逻辑日志,在事务未提交前会记录相反的操作到undo log,当事务回滚,使用undo log 进行回滚,保证了事务的原子性。MV…

C++ TinyWebServer项目总结(8. 高性能服务器程序框架)

《Linux 高性能服务器编程》一书中,把这一章节作为全书的核心,同时作为后续章节的总览。这也意味着我们在经历了前置知识的学习后,正式进入了 Web 服务器项目的核心部分! 前置内容回顾: 1. C TinyWebServer项目总结&…

等保测评中的安全测试方法

等保测评,即信息安全等级保护测评,是我国网络安全领域的重要评估机制,用于验证网络系统或应用是否满足相应的安全保护等级要求。在等保测评中,安全测试方法扮演着至关重要的角色。本文将详细介绍等保测评中常用的安全测试方法及其…

LinkedHashMap和TreeMap的基本使用

一.LinkedHashMap集合:(是HashMap集合的儿子,Map集合的孙子) 1.特点: 2.代码实现: 1)键的唯一性: package com.itheima.a01myMap; ​ import java.util.LinkedHashMap; ​ public class A07_…

YOLOv8目标检测部署RK3588全过程,附代码pt->onnx->rknn,附【详细代码】

目录 一、训练yolov8模型,得到最佳权重文件best.pt 二、pt转onnx,即best.pt->best11.onnx 1、对下载的YOLOv8代码修改 2、加入模型导出功能, 3、导出指令采用如下代码 三、ONNX转RKNN 四、RK3588部署 1、拷贝rknn文件到rk3588板子内 2、执行…

48.x86游戏实战-封包抓取进图call

免责声明:内容仅供学习参考,请合法利用知识,禁止进行违法犯罪活动! 本次游戏没法给 内容参考于:微尘网络安全 工具下载: 链接:https://pan.baidu.com/s/1rEEJnt85npn7N38Ai0_F2Q?pwd6tw3 提…

递归神经网络 (RNN) 简介

文章目录 一、介绍二、什么是递归神经网络 (RNN)?三、展开递归神经网络四、训练递归神经网络五、RNN 的类型六、现实生活中的 RNN 用例七、RNN 的两个主要限制八、RNN的变体8.1 双向递归神经网络 (BRNN)8.2 长短期记忆…

YOLOv8改进 | 融合改进 | C2f融合Faster-GELU模块提升检测速度【完整代码 + 主要代码解析】

秋招面试专栏推荐 :深度学习算法工程师面试问题总结【百面算法工程师】——点击即可跳转 💡💡💡本专栏所有程序均经过测试,可成功执行💡💡💡 专栏目录 :《YOLOv8改进有效…

基于信号量和环形队列的生产者消费者模型

文章目录 POSIX信号量信号量接口初始化信号量销毁信号量等待信号量发布信号量 基于环形队列的生产者消费者模型单生产单消费多生产多消费 POSIX信号量 POSIX信号量和SystemV信号量作用相同,都是用于同步操作,达到无冲突的访问共享资源目的。 但POSIX可以…

接口返回结果封装

接口返回结果封装 1、错误信息枚举 package com.zhw.enums;public enum AppHttpCodeEnum {// 成功SUCCESS(200,"操作成功"),// 登录NEED_LOGIN(401,"需要登录后操作"),NO_OPERATOR_AUTH(403,"无权限操作"),SYSTEM_ERROR(500,"出现错误&quo…

K-medoids算法原理及Python实践

一、原理 K-medoids算法是一种聚类算法,它的原理与K-Means算法相似,但关键区别在于它使用数据集中的实际点(称为medoids)作为簇的中心点,而不是像K-Means那样使用簇内所有点的平均值。以下是K-medoids算法的主要原理&…

Excel 保持原序时计算组内排名

Excel某表格第1列是分组,第2列是日期,未排序。 AB1Agent IDDate of Sale2Agent107-12-20233Agent105-12-20234Agent209-12-20235Agent313-12-20236Agent214-12-20237Agent222-12-20238Agent115-12-20239Agent117-12-202310Agent213-12-202311Agent120-1…

wooyu漏洞库YYDS!!!入门之道:重现乌云漏洞库

目录 wooyun乌云漏洞库搭建 1、搭建资料 文件结构分析: ​编辑2、搭建过程 2.1、搭建wooyun网站 2.2、配置数据库 2.2.1、修改数据库配置文件conn.php 2.2.2、创建wooyun数据库,并解压数据库文件 2.2.3、连接数据库(数据库默认连接密…

计算机基础知识总结(八股文--计算机网络、操作系统、数据库、c++、数据结构与算法)

一、操作系统 0.内存管理 01.什么是虚拟内存?为什么需要虚拟内存? 虚拟内存为程序提供比实际物理内存更大的内存空间,同时提高内存管理的灵活性和系统的多任务处理能力。虚拟地址空间就是进程所能看到的内存空间,这段空间是连续…

【案例61】update driver error

问题现象 顾问在保存数据源时报“update driver error”错误,重启服务器,重启sysConfig.bat后问题依旧。 问题分析 之前碰到这类问题发现是权限的问题。所以先去检查了相关文件夹的权限。 查看控制台发现客户用的是非Administrator用户登录&#xff0…

数学建模2024国赛时间及事项安排

2024年的全国大学生数学建模竞赛即将拉开帷幕。考虑到许多同学可能是首次参与此类赛事,尚不清楚如何进行有效的时间安排,博主在此整理了以往参赛的经验和时间管理策略,希望能为大家提供一些有益的参考,更从容地应对国赛。 本届全国…