一张顶20张H100,速度10倍于B200:史上最快AI芯片,华人制造

在谈到 AI、大模型、算力等关键词时,如果要提及硬件产品,很多人应该会不假思索的说出英伟达。的确,在全球都缺算力的环境下,英伟达的地位是独特又难以撼动的。然而就在近日,有一家公司带着自己的 AI 芯片来叫板了。昨天凌晨,科技圈迎来了一个重要新闻。成立时间不到两年的美国芯片初创公司 Etched 推出了自己的第一块 AI 芯片 Sohu,它运行大模型的速度比英伟达 H100 要快 20 倍,比今年 3 月才推出的顶配芯片 B200 也要快上超过 10 倍。

61718eb08621c8a80baf7e0c683f267b.jpeg

“Sohu”什么来头?

Sohu 是世界第一款专用于 Transformer 计算的芯片,历时两年打造。作为一块 ASIC(专用集成电路),Sohu 芯片最大的亮点在于直接把 Transformer 架构蚀刻到芯片中,乌伯蒂称 Sohu 采用台积电的 4 纳米工艺制造,推理性能大大优于 GPU 和其他通用人工智能芯片,同时能耗更低,而如今的每款主流 AI 产品如 ChatGPT、Claude、Gemini 和 Sora 都是由 transformer 驱动的。在 Llama 70B 吞吐量中,Sohu 每秒可处理超过 50万个 tokens,让用户可以构建 GPU 无法实现的产品。Sohu 能够实现实时语音代理、毫秒级处理数千字文本、更强大的代码树搜索、并行比较数百个响应、多播推测解码以及实时生成新内容等功能,为未来万亿级参数模型的运行提供了可能。

速度超H100 20 倍,FLOPS 利用率超 90%

作为世界上首款 transformer ASIC(应用型专用集成电路)芯片,一台集成了8 块 Sohu 的服务器可以匹敌 160 块 H100 GPU。也即,Sohu 的运行速度是 H100 的 20 多倍。具体来讲,通过专门化,Sohu 具备了前所未有的性能。一台集成 8 块 Sohu 芯片的服务器每秒可以处理 50 万的 Llama 7B tokens。针对 Llama 3 70B 的 FP8 精度基准测试显示:无稀疏性、8 倍模型并行、2048 输入或 128 输出长度。此外,对于 Llama、Stable Diffusion 3,Sohu 仅支持 transformer 推理。Sohu 支持了当前谷歌、Meta、微软、OpenAI、Anthropic 等各家的模型,未来还会适配模型调整。由于 Sohu 仅能运行一种算法,因此可以删除绝大多数控制流逻辑,从而允许拥有更多数学块。也因此,Sohu 实现了 90% 以上的 FLOPS 利用率,而使用 TRT-LLM 的 GPU 约为 30%。

软件如何工作

在 GPU 和 TPU 上,软件是一场噩梦。处理任意 CUDA 和 PyTorch 代码需要极其复杂的编译器。第三方 AI 芯片(如 AMD、Intel、AWS 等)在软件上总共花费了数十亿美元,但收效甚微。而 Sohu 只运行 transformer,因此只需要为 transformer 编写软件。大多数运行开源或内部模型的公司都使用特定于 transformer 的推理库,比如 TensorRT-LLM、vLLM 或 HuggingFace 的 TGI。这些框架非常僵化,虽然你可以进行模型超参数调优,但实际上不支持更改底层模型代码。但这没关系,因为所有 transformer 模型都非常相似(甚至是文本 / 图像 / 视频模型),所以超参数调优就是你真正需要的。虽然 95% 的 AI 公司是这样,但一些最大的 AI 实验室采用定制方式。他们有工程师团队来手动调整 GPU 核心以实现更高的利用率,并进行逆向工程以将寄存器对每个张量核心的延迟将至最低。Etched 让我们不需要再进行逆向工程,他们的软件(从驱动程序、内核到服务堆栈)都将是开源的。如果你想实现自定义 transformer 层,则内核向导可以自由地这样做。

创业团队:哈佛辍学生领衔

打造 Sohu 芯片的 Etched 位于加州库比蒂诺,公司成立仅两年,目前团队只有 35 人,创始人是一对哈佛辍学生 Gavin Uberti(前 OctoML 和前 Xnor.ai 员工)和 Chris Zhu,他们与 Robert Wachen 和前赛普拉斯半导体公司首席技术官 Mark Ross 一起,一直致力于打造专用于 AI 大模型的芯片。两人在2022年就声称Transformer将改变世界。领英资料也显示公司创立时间在2022年10月,比ChatGPT问世还早一个月。

9c7250fae2276763c6f48e3d18fd6a42.jpeg

在 Sohu 芯片发布的同时,Etched 也宣布已完成了 1.2 亿美元的 A 轮融资,由 Primary Venture Partners 和 Positive Sum Ventures 共同领投。Etched 的总融资额已达到 1.2536 亿美元,本轮融资的重要投资者包括 Peter Thiel、GitHub 首席执行官 Thomas Dohmke、Cruise 联合创始人 Kyle Vogt 和 Quora 联合创始人 Charlie Cheever。Uberti 声称到目前为止,已有匿名客户预订了「数千万美元」的硬件,预计在今年三季度,Sohu 将推向市场。未来真的如 Uberti 所说,只有在 Sohu 这样的芯片上,视频生成、音频生成、具身智能等技术才能真正落地吗?

高性价比GPU算力:https://www.ucloud.cn/site/active/gpu.html?ytag=gpu_wenzhang_0627_shemei


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/36309.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

吴恩达机器学习 第三课 week1 无监督学习算法(下)

目录 01 学习目标 02 异常检测算法 2.1 异常检测算法的概念 2.2 基于高斯模型的异常检测 03 利用异常检测算法检测网络服务器的故障 3.1 问题描述 3.2 算法实现 3.3 问题升级 04 总结 01 学习目标 (1)理解异常检测算法(Anomaly Det…

lvgl v8.3 windows仿真

1,下载安装codeblocks20.03 https://zenlayer.dl.sourceforge.net/project/codeblocks/Binaries/20.03/Windows/codeblocks-20.03mingw-setup.exe?viasf1 2,下载代码 git clone --recurse-submodules https://github.com/lvgl/lv_port_win_codeblock…

双指针算法——滑动窗口

前言: 滑动窗口本质上也是利用双指针来解决特定情况下的问题。滑动窗口算法思想是通过俩个指针,定义在左边和右边,俩指针同向运动,保持着一个像“窗口”一样的双指针来不停的压缩或者扩展来移动“窗口”,从而找到特定…

DigitalOcean Droplet 云主机新增内置第五代 Xeon CPU 机型

DigitalOcean 近期宣布,在其高级 CPU 服务器(Premium CPU-Optimized Droplet)队列中引入英特尔第五代Xeon可扩展处理器(代号为 Emerald Rapids)。作为英特尔产品线中的最新一代用于数据中心工作负载的处理器&#xff0…

LangCell:用于细胞注释的语言-细胞预训练模型

细胞身份包括细胞的各种语义,包括细胞类型、pathway信息、疾病信息等。从转录组数据中了解细胞身份,例如注释细胞类型,是一项基础任务。由于语义是由人类赋予的,如果没有cell-label pair提供监督信号,AI模型很难有效地…

小项目——MySQL集训(学生成绩录入)

ddl语句 -- 创建学生信息表 CREATE TABLE students (student_id INT AUTO_INCREMENT PRIMARY KEY COMMENT 学生ID,name VARCHAR(50) NOT NULL COMMENT 学生姓名,gender ENUM(男, 女) NOT NULL COMMENT 性别,class VARCHAR(50) NOT NULL COMMENT 班级,registration_date DATE CO…

Redis实战—基于setnx的分布式锁与Redisson

本博客为个人学习笔记,学习网站与详细见:黑马程序员Redis入门到实战 P56 - P63 目录 分布式锁介绍 基于SETNX的分布式锁 SETNX锁代码实现 修改业务代码 SETNX锁误删问题 SETNX锁原子性问题 Lua脚本 编写脚本 代码优化 总结 Redisson 前言…

基于STM32的温湿度检测TFT屏幕proteus恒温控制仿真系统

一、引言 本文介绍了一个基于STM32的恒温控制箱检测系统,该系统通过DHT11温湿度传感器采集环境中的温湿度数据,并利用TFT LCD屏幕进行实时显示。通过按键切换页面显示,通过按键切换实现恒温控制箱的恒温控制。为了验证系统的可靠性和稳定性&…

png格式快速压缩该怎么做?在电脑压缩png图片的方法

png格式的图片如何快速压缩变小呢?现在网络的不断发展,图片是日常用来分享展示内容的一种常用手段,其中使用最多的一种图片格式就是png,png格式具有无损压缩支持透明底的特性,在很多的场景下都会使用。 现在图片的清晰…

Arduino - 线性执行器(支撑或滑杆)

Arduino - 线性执行器(支撑或滑杆) Arduino - 执行器 In this tutorial, we are going to learn: 在本教程中,我们将学习: How linear actuator works 线性执行器的工作原理How to make linear actuator extend or retract. 如何使线性执行器伸展或缩…

百元蓝牙耳机哪款性价比高?盘点性价比高的百元蓝牙耳机品牌

在如今快节奏的生活中,蓝牙耳机已经成为人们日常生活中不可或缺的配件。然而,市面上百元左右性价比高的蓝牙耳机琳琅满目,消费者往往难以选择到一款质量好、耐用的产品。我们希望可以为广大消费者提供一些参考和建议,接下来&#…

基于51单片机电子称—串口显示

基于51单片机电子称设计 (仿真+程序) 功能介绍 具体功能: 1.矩阵键盘组成按键,输入价格结算、打印; 2.用滑动变阻器和ADC0832模拟称重; 3.LCD1602可以显示重量、单价和总价; 4.…

家用洗地机十大品牌什么牌子好用?2024十大爆款洗地机分享

在快节奏的生活中,清洁家居成为了一项繁琐却必不可少的任务。而洗地机的出现,无疑给忙碌的都市人带来了福音。选择一款优质的洗地机可以大大提升我们清洁的效率,改善我们的生活品质。那么,哪家洗地机清洁力最强,更适合…

ONLYOFFICE 桌面编辑器 8.1 版发布:全面提升文档处理效率的新体验

文章目录 什么是ONLYOFFICE ?ONLYOFFICE 桌面编辑器 8.1 发布:新功能和改进功能强大的 PDF 编辑器幻灯片版式功能从右至左语言支持多媒体功能增强无缝切换工作模式其他改进和优化总结 什么是ONLYOFFICE ? https://www.onlyoffice.com/zh/off…

JavaScript的学习之图片的切换

目录 一、寻找素材 二、编写简单的静态html页面 代码示例 效果展示 三、JS功能的实现 JS代码 完整代码 效果展示 一、寻找素材 随便去网上找几张图片素材 二、编写简单的静态html页面 代码示例 <!doctype html> <html><head><meta charset"…

svn明明都在环境变量中添加了,但还是无法在cmd中生效

svn明明都在环境变量中添加了&#xff0c;但还是无法在cmd中生效 cmd显示原因问题解决 cmd显示 svn不是内部或外部命令&#xff0c;也不是可运行的程序或批处理文件 原因 安装svn一直点下一步下一步…&#xff0c;没有勾选command line client。 问题解决 1.按下winx&…

如何加密电脑文件?电脑重要文件怎么加密?

在电脑中&#xff0c;我们会存储很多重要文件&#xff0c;包括个人隐私视频、照片&#xff0c;企业机密数据&#xff0c;工作数据等。为了避免重要文件泄露&#xff0c;我们需要加密保护电脑文件。下面我们就来了解一下电脑文件怎么加密&#xff1f; 超级加密3000 当需要加密电…

vue 实现 word/excel/ppt/pdf 等文件格式预览操作

效果图&#xff1a; 问题描述&#xff1a;一般情况下使用iframe标签就可以实现文件预览&#xff0c;但是这个标签只针对于ppt和pdf是有效的。对于doc文件就需要借助第三方插件&#xff08;vue-office/docx&#xff09;来实现预览了。下面介绍使用方法。 安装插件&#xff1a;n…

力扣爆刷第155天之TOP100五连刷41-45(下一个排列、正序数组中位数、归并排序链表)

力扣爆刷第155天之TOP100五连刷41-45&#xff08;下一个排列、正序数组中位数、归并排序链表&#xff09; 文章目录 力扣爆刷第155天之TOP100五连刷41-45&#xff08;下一个排列、正序数组中位数、归并排序链表&#xff09;一、31. 下一个排列二、4. 寻找两个正序数组的中位数三…

量化交易策略:定义及其重要性

量化交易是华尔街和硅谷的秘密结合点&#xff0c;在这里数学和算法与金钱和市场相遇。虽然它曾经是金融巨头的专属领域&#xff0c;但现在它比以往任何时候都更易于接触。 但不要被愚弄&#xff0c;量化交易仍然是一种高速、高压的游戏&#xff0c;在毫秒间可以赚到或失去财富…