马斯克开启军备竞赛,xAI筹集60亿美元

大模型技术论文不断,每个月总会新增上千篇。本专栏精选论文重点解读,主题还是围绕着行业实践和工程量产。若在某个环节出现卡点,可以回到大模型必备腔调重新阅读。而最新科技(Mamba,xLSTM,KAN)则提供了大模型领域最新技术跟踪。若对于如果构建生成级别的AI架构则可以关注AI架构设计专栏。技术宅麻烦死磕LLM背后的基础模型。

xAI

埃隆·马斯克于去年夏天创立了 xAI,今天宣布筹集 60 亿美元资金,称将帮助xAI“将首批产品推向市场,构建先进的基础设施,并加速未来技术的研发”。

到目前为止,xAI 已经推出了 Grok,这是OpenAI ChatGPT 的升级版,可通过 X(原名 Twitter)使用,目前该聊天机器人仅供 X Premium 订阅用户使用。

据 xAI 称,本轮融资来自多个渠道,包括 Andreessen Horowitz、红杉资本和沙特阿拉伯王子阿尔瓦利德·本·塔拉尔。去年,一份提交给美国证券交易委员会的文件显示,xAI 正寻求通过股权投资筹集高达 10 亿美元的资金。几个月前,《金融时报》报道称,该公司正寻求筹集高达60 亿美元的资金。马斯克当时否认了这一报道。

微软公司向 OpenAI 投资了约 130 亿美元,而亚马逊公司向 Anthropic 投资了约 40 亿美元。

能够支持 AI 开发的硬件价格相当昂贵,Nvidia 即将推出的 Blackwell B200 AI 显卡每张售价在 30,000 至 40,000 美元之间。上周有Information报道称,xAI 需要 100,000个 Nvidia的H100 芯片来为超级计算机提供 Grok AI 聊天机器人的升级版。据报道,马斯克告诉投资者,计划在 2025 年秋季之前启动新的数据中心。

在芯片、人才和技术方面展开人工智能竞赛的代价并不低——除了谷歌、苹果、亚马逊、微软和Meta向自己的人工智能项目投入资源之外,大型科技公司还向Anthropic等人工智能初创公司投入了数十亿美元。

微软还与 OpenAI 达成了数十亿美元的合作,据报道,OpenAI 首席执行官 Sam Altman 正在寻求数万亿美元的资金来重振全球芯片行业。作为 OpenAI 的创始成员之一,马斯克正在起诉该公司,声称该公司放弃了造福人类的使命。

除了 xAI 和 OpenAI,马斯克表示,在人工智能和机器人方面,除非他获得更多控制权,否则他“更愿意在特斯拉之外开发产品”。

Grok-1.5V

根据公开的开发者文件,埃隆·马斯克的人工智能公司 xAI 正在为其 Grok 聊天机器人添加多模式输入方面取得进展。这意味着,用户很快就能将照片上传到 Grok 并收到基于文本的答案。

xAI 上个月在一篇博客文章中首次透露了这一点,称 Grok-1.5V 将提供“多个领域的多模态模型”。开发人员文档的最新更新似乎显示了推出新模型的进展。

在开发人员文档中,一个示例 Python 脚本演示了开发人员如何使用 xAI 软件开发工具包库根据文本和图像生成响应。此脚本读取图像文件、设置文本提示并使用 xAI SDK 生成响应。

Grok-1 已经开源

xAI前端时间将使其 AI 聊天机器人Grok-1 版本开源,目前该版本已在GitHub和Hugging Face上发布。此举使研究人员和开发人员能够扩展该模型,影响 xAI 如何在 OpenAI、Meta、谷歌、微软等科技巨头的竞争中发展 Grok。

这一里程碑标志着 AI 领域的重大转折,使该领域的其他开发人员和专家能够访问 Grok-1 的代码和相关数据以进行分析和开发。

Grok-1  开源旨在为 AI 研发开辟新机遇。此前,Mixtral和Llama 2等行业领先模型主导了AI研究领域。然而,Grok以其庞大的规模脱颖而出,包含一组令人印象深刻的 314B参数,几乎是其最接近的竞争对手 Llama 2 的四倍。

这种规模意味着模型精度和交互能力方面具有广阔的前景。Grok 的权重对于其运行至关重要,可供下载,使开发人员能够试验其结构和行为。

现在 Grok-1 已经开源,xAI的Grok-1 版本的所有基本信息:314B params - 8*33B MoE - 25% 的权重激活/单个Token比Llama2和GPT3.5 Apache2更好。

马斯克声称,他决定采用 Grok 开源方式是为了响应人工智能领域日益增长的透明度和协作需求。为了寻求 OpenAI 和谷歌的替代方案,马斯克推出了xAI,目的是开发他期望的人工智能,能够最大限度提高寻求真相的能力。

Grok-1 最初于 2023 年 10 月进行训练,是一个预训练过的基础模型,未经任何微调。这种缺乏专业化的特性使其在广泛的应用中具有强大的潜力,同时完全不受约束。该模型的参数已根据很宽松的Apache 2.0许可发布,鼓励商业和非商业用途。

主要技术规格:

  • 3140 亿个参数

  • 混合专家架构,包含 8 位专家(每个Token有 2 位活跃专家)

  • 64 层

  • 48 个用于查询的注意力头

  • 6,000 维内部嵌入

  • 支持旋转位置嵌入 (RoPE)

  • 支持 8 位量化和激活缓存

  • 最大上下文窗口为 8,000 个 token

  • SentencePiece Tokenizer 标记器,包含 131,072 个标记

  • 由于规模巨大,在本地运行 Grok-1 需要大量硬件资源。4 位推理估计需要 320GB VRAM,而 8 位推理则需要 NVIDIA DGX H100 这样的系统(配备 8 个 GPU,每个 GPU 配备 80GB VRAM)。

早期基准测试表明,在 GEM8K、MMLU、HumanEval 和数学问题等任务上,Grok-1 的表现优于 2700 亿参数 Lamma MoE 甚至 GPT-3.5 等模型。这表明该模型的规模可能转化为改进的推理能力。拥有大量高质量数据集的公司可以充分的利用开源Grok-1,能够获取卓越性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/17899.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ai智能写作怎么样,5款ai写作软件创作文章太棒了

ai智能写作究竟怎么样呢?在当今数字化的时代,AI智能写作正逐渐成为一种引人瞩目的趋势。AI智能写作是指利用人工智能技术来辅助或代替人类进行文本创作的过程。随着人工智能技术的不断发展,AI智能写作在各个领域都呈现出越来越广泛的应用。本…

微服务架构下的‘黑带’安全大师:Spring Cloud Security全攻略!

深入探讨了微服务间的安全通信、安全策略设计以及面对经典安全问题的应对策略。无论你是微服务的新手还是资深开发者,都能在本文中找到提升安全功力的秘籍。让我们一起成为微服务架构下的‘黑带’安全大师! 文章目录 1. 引言微服务安全挑战与重要性Sprin…

SHELL编程(三)网络基础命令 Makefile

目标 一、网络基础及相关命令(一)网络相关命令(二)重启网络服务 二、Makefile(一)标签式语法(二)目标:依赖 式语法1. 格式2. 编译流程:预处理 编译 汇编 链接3. 目标和伪…

Java入门基础学习笔记50——ATM系统

1、项目演示; 2、项目技术实现; 1)面向对象编程: 每个账户都是一个对象,所以要设计账户类Account,用于创建账户对象封装账户信息。ATM同样是一个对象,需要设计ATM类,代表ATM管理系…

windows tomcat服务注册和卸载

首页解压tomcat压缩包,然后进入tomcat bin目录,在此目录通过cmd进入窗口, 1:tomcat服务注册 执行命令:service.bat install tomcat8.5.100 命令执行成功后,会在注册服务列表出现这个服务,如果…

基于ssm+vue图书管理系统

基于ssmvue图书管理系统 ssm477图书管理系统 相关技术 javassmmysqlvueelementui

索引下推详情-简单入手

一.概念 索引下推(Index Pushdown)MySQL5.6添加的,是一种优化技术,用于在查询执行时将部分计算移动到存储引擎层,从而减少数据传输和计算的开销(减少回表查询次数),提高查询性能。 …

14、类与对象(采用图解方式分析内存结构)①

在idea中创建一个新文件,名称为Hello.java 其中,Hello就是一个类,main是这个类里面的方法,这意味着我们在学习的时候已经在使用类了。 对象和类 一、概念二、⭐内存分配机制分析Ⅰ、基本内存结构⭐⭐Ⅱ、调用类方法的内存分析&am…

使用 Django 显示表中的数据

1、问题背景 当我们使用 Django 进行 Web 开发时,经常需要在 Web 页面上显示数据库中的数据。例如,我们可能需要在一个页面上显示所有用户的信息,或者在一个页面上显示所有文章的标题和作者。那么,如何使用 Django 来显示表中的数…

打包软件注意

1.建个文件夹D:333 /Dalsa_Cameras /cam1 cam2 2. 3.缺的包 4.自动启动.exe exe快捷方式放一起

编程零基础,如何学习Python?

初学者选择Python入手着实是一个不错的方向,入手简单且广泛的运用是它最显著的特色了。 那有几个问题,我想是开始学习Python之前应该了解的, python能做什么? 发展前景与工作机会有哪些? 需要学习哪些内容&#xf…

英国金融时报:波场TRON出席康奈尔大学区块链会议

近日,康奈尔区块链大会的白金赞助商波场TRON在罗斯福岛的康奈尔大学科技校区(Cornell Tech)举办多项活动,消息得到英国金融时报,费加罗报和Benzinga等权威外媒报道,这全面彰显了波场TRON的领导力。大会吸引了包括学生、学者和行业领袖等在内的 800 多名参与者,凸显了波场TRON致…

迅为RK3562开发板专为3562编写10大分类2900+页文档

iTOP-3562开发板采用瑞芯微RK3562处理器,内部集成了四核A53Mali G52架构,主频2GHZ,内置1TOPSNPU算力,RK809动态调频。支持OpenGLES1.1/2.0/3.2、0penCL2.0、Vulkan 1.1内嵌高性能2D加速硬件。 内置独立NPU, 算力达 1TOPS,可用于轻…

Geotools--生成等值线

好久没用geotools去写东西了&#xff0c;因为近几年一直在接触所谓数字孪生和可视化相关项目&#xff0c;个人的重心也往前端可视化去倾斜&#xff0c;在后端的开发上到变得停滞下来。 这次用的是geotools 28.4版本&#xff0c;生成等值线的方法在 <dependency><group…

【CTF Web】NSSCTF 3868 [LitCTF 2023]这是什么?SQL !注一下 !Writeup(SQL注入+报错注入+括号闭合+DIOS)

[LitCTF 2023]这是什么&#xff1f;SQL &#xff01;注一下 &#xff01; 为了安全起见多带了几个套罢了o(▽)q 出题人 探姬 解法 先试试这个&#xff1a; )))))) or 11 -- 有结果了&#xff0c;但是这个 flag 是假的。 flag 可能在其他表里。用 hackbar 上 DIOS payload。 …

Meta 推出新型多模态 AI 模型“变色龙”(Chameleon),挑战 GPT-4o,引领多模态革命

在人工智能领域&#xff0c;Meta 近日发布了一款名为“变色龙”&#xff08;Chameleon&#xff09;的新型多模态 AI 模型&#xff0c;旨在挑战 OpenAI 的 GPT-4o&#xff0c;并刷新了当前的技术标准&#xff08;SOTA&#xff09;。这款拥有 34B 参数的模型通过 10 万亿 token 的…

3步找回丢失数据,EasyRecovery让数据恢复如此简单!

在数字化时代&#xff0c;数据已成为我们生活和工作中不可或缺的一部分。然而&#xff0c;数据丢失却是一个令人头疼的问题。无论是因为意外删除、硬盘损坏还是系统崩溃&#xff0c;丢失的文件和数据都可能给我们造成巨大的经济损失和时间浪费。因此&#xff0c;如何高效利用现…

tcp协议介绍,协议段格式(端口号,首部长度,窗口大小,序号,确认序号,6个标志位),流量控制,确认应答机制,捎带应答,三次握手的双方认知不一致问题

目录 tcp协议 介绍 传输控制协议 图解 全双工 缓冲区 控制 tcp协议段格式 数据在不同层的名称 图解 ​编辑 端口号 首部长度 窗口大小 -- 引入 前提 流量控制 确认应答机制 窗口大小 -- 介绍 序号 -- 引入 确认应答机制的进一步探讨 如果应答丢失 捎带应…

《我的阿勒泰》最经典的6句话

这是首部散文影视化改编的作品&#xff0c;剧集里的每一帧画面&#xff0c;都堪比电影大作。 阿勒泰壮丽广阔的风光&#xff0c;如同一幅幅动人的画卷展现在我们面前&#xff0c;让人沉醉其中。李文秀平淡朴实的生活&#xff0c;却溢出了蓬勃的生命力&#xff0c;直击心灵。只…

磁盘管理后续——盘符漂移问题解决

之前格式化磁盘安装了文件系统&#xff0c;且对磁盘做了相应的挂载&#xff0c;但是服务器重启后挂载信息可能有问题&#xff0c;或者出现盘符漂移、盘符变化、盘符错乱等故障&#xff0c;具体是dev/sda, sdb, sdc 等等在某些情况下会混乱掉 比如sda变成了sdb或者sdc变成了sdb等…