超越GPU:TPU能成为接班人吗?

在计算机的世界里,硬件技术的发展一直在快速推进。今天,我们要谈论的就是一种特殊的处理器:TPU,全称是Tensor Processing Unit。在我们开始深入探讨TPU之前,先了解一下两个重要的芯片技术,FPGA和ASIC。

FPGA和ASIC

Altera是一家FPGA巨头

FPGA,全称为现场可编程门阵列,这是一种特殊的处理器,我们可以通过程序代码来控制其中的电路连线,从而实现某种特定的算法单元。简单来说,它就像一块空白的画板,可以根据需要进行编程和配置,实现各种硬件功能。使用FPGA,我们可以快速低成本地验证硬件设计,或者少量定制芯片的发行。

而ASIC,全称为专用集成电路,是为专门用途设计的芯片,如相机芯片、音频芯片、网卡芯片、挖矿芯片等等。可以说,对FPGA进行编程,就是把FPGA电路变成了一个ASIC。相比之下,FPGA需要的晶体管更多、能耗更大、单片成本也高。然而,FPGA没有硬件研发成本,但ASIC需要仿真、验证、流片等流程,如果不能大量发行,研发成本就不能被摊薄,反而整体成本更高。

了解了这两种技术之后,我们再来来看看TPU是什么?

什么是TPU?

TPU全称为Tensor Processing Unit,是一种张量处理器,属于一种ASIC。张量在物理学和数学上有着广泛的应用,它经常被用来表达几何性质和物理规律。对于初次接触张量这个概念的同学,应该完全不知其所云,我这里简单介绍下。大多数同学应该都听说过或接触过向量或者矩阵,在编程中向量可以使用一维数组表达,矩阵可以使用二维数组来表达,那么张量呢?它是多维数组。张量处理器就是专门用来进行多维数组运算的专用处理器,当然用它来搞搞矩阵、向量和单个数字的运算也完全没有问题,因为向量、矩阵都是张量的子集。

理解了什么是TPU,我们还要多问个为什么,为什么需要TPU?

为什么需要TPU?

其实在上面介绍ASIC时,我已经提到过了一些,包括为专门的用途设计和更低的成本,这里再展开详细说明下。

TPU主要是为了解决机器学习的计算问题,特别是深度学习。Google最初设计TPU是用来解决模型推断计算的问题,模型推断就是使用训练好的模型进行计算,输入参数、获取结果。比如我们使用ChatGPT聊天、使用Stable Diffusion出图等等都是模型推断。模型推断有以下特点:

  • 训练后的模型一般会被广泛应用,相比训练,后续的计算量会很大;
  • 推断工作的灵活性要求低,需要的电路相对简单;
  • 推断工作要保证响应时间,尽可能地低,专门的硬件会更容易处理;
  • 推断工作要尽可能低的功耗,还是因为大规模计算问题,累积的能耗不可忽视。

根据这些特点,使用专用的硬件设计就很有必要了,TPU就产生了,它内置了大量的矩阵运算单元,可以并行处理大量的矩阵运算,从而相比CPU和GPU大大提高了计算效率;同时由于它的专用硬件设计,其能耗也更低,这对于大规模计算降低成本特别重要。在Google论文里,它可以比CPU、GPU 快15~30 倍,能耗比可以高出 30~80 倍。

Google TPU V4

在TPU后来的迭代演化中,Google已经发布了四代TPU,它不仅能用于模型推断,也开始用于模型训练,每一代的性能都有显著的提升,广泛应用于语音识别、图片识别等深度学习任务中,表现出了很高的效率和性能。除了Google,其他的一些厂商,如阿里巴巴、华为等,也研发了自己的定制化AI芯片,这些芯片在设计理念上与TPU类似,都是为了提高深度学习任务的计算效率。

TPU的实现

我们继续了解下TPU是怎么做到这么优秀的。

它的设计思路非常简洁且实用。首先,它可以像显卡一样插在主板的PCI-E接口上,通过CPU向TPU发送指令,这样就可以向前兼容,设计发行时间也大大缩短。

其次,TPU的主要组成部分包括一个矩阵计算单元(固定硬件电路)和一个本地统一缓存区。这两个部分占据了TPU超过一半的空间。这是因为深度学习的计算主要是矩阵运算,矩阵计算单元的存在大大提高了运算速度。而缓存区则使用了SRAM,比常用的DRAM更快,尽管密度小,占用空间大,但是提高了数据的读写速度。

根据深度学习的特点,操作数都能控制在 -3 到 3,精度放到 2^6,一般就够了,因此在Google的TPU中,使用了8bit来表示浮点数,而且这样做的好处有很多。相比于32位或64位的浮点数,8位可以大大降低计算的复杂性,提高计算效率;还可以减少存储需求,降低内存带宽的压力。

TPU的局限性

如果你经常浏览AI资讯,提到硬件计算,似乎没什么人提及TPU,大多数谈的还是GPU,比如美帝最近又限制了Nvidia高端显卡的出口,甚至传言消费级的4090都要限制了,各大厂商都还在使用GPU搞深度学习、搞大模型,怎么没人用TPU呢?这是怎么回事呢?

首先虽然TPU的设计理念非常先进,性能和效率都比传统的CPU和GPU要高。然而,由于TPU是专门为深度学习设计的,所以在其他类型的计算任务中,它的性能可能并不出色。此外,TPU还需要特定的软件支持,这也可能限制了它的广泛应用。

其次成本,虽然使用TPU的总体成本比较低,但是由于TPU的生产技术相对复杂,生产成本相对较高,专业的芯片厂商可能不懂也不太关注后期的运行成本,生产积极性不高,所以一直是Google、华为、阿里巴巴这种云计算企业在引领这个区域,这是普通用户不容易接触到的。

最后,关于为什么很多厂商都在使用GPU做训练和推理,这主要是因为GPU的通用性和成熟的软件生态。GPU不仅可以用于深度学习,还可以用于图形处理、科学计算等多种任务。此外,GPU得到了TensorFlow、PyTorch等主流深度学习框架的良好支持,这使得开发者可以很方便地使用GPU进行深度学习的开发。相比之下,虽然TPU在深度学习任务中的性能更高,但由于其专用性和软件支持的限制,目前还无法完全替代GPU。

你觉得未来TPU能接GPU的班吗?


总的来说,TPU是一种强大的处理器,它在处理深度学习任务时表现出色,能大大提高计算效率,降低能耗,总体成本较低。但是显卡和TPU各有优势,选择使用哪种硬件取决于具体的应用场景和需求。

关注萤火架构,加速技术提升!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/620216.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

计算机网络 —— 数据链路层

数据链路层 3.1 数据链路层概述 数据链路层把网络层交下来的数据构成帧发送到链路上,以及把收到的帧数据取出并上交给网络层。链路层属于计算机网络的底层。数据链路层使用的信道主要由以下两种类型: 点对点通信。广播通信。 数据链路和帧 链路&…

DHCP详解(配置小实验)

目录 一、DHCP 1、了解DHCP 2、使用DHCP的好处 3、HDCP的分配方式 4、DHCP协议中的报文 5、DHCP的租约过程 6、安装和配置DHCP服务 一、DHCP 1、了解DHCP DHCP(Dynamic Host Configuration Protocol,动态主机配置协议)由Internet工作任务小组设计开发专门用…

java每日一题——ATM系统编写(答案及编程思路)

前言: 基础语句学完,也可以编写一些像样的程序了,现在要做的是多加练习,巩固下知识点,打好基础,daydayup! 题目:模仿银行ATM系统,可以创建用户,存钱,转账&…

Python 二维平面Delaunay三角网建立

目录 一、算法概念二、代码实现三、结果示例根据二维平面内的离散点建立平面三角网。 一、算法概念 三角剖分与Delaunay剖分定义:如何把一个散点集剖分成不均匀的三角形网格,即在给定的平面点集上,生成三角形集合的过程。考虑平面点集P={p1,p2,p3,…,pn},我们希望得到三…

基于Matlab/Simulink开发自动驾驶的解决方案

文章目录 处理自动驾驶数据 仿真自动驾驶场景 设计感知算法 设计规划和控制算法 生成代码和部署算法 集成和测试 参考文献 使用 MATLAB/Simulink开发自动驾驶,能够深入建模真实世界的行为、减少车辆测试并验证嵌入式软件的功能,从而推进自动驾驶感…

QuEra 10,000个物理量子位和100个逻辑量子位的量子计算机2026

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领…

AWS-SAA-C03认证——之基础知识扫盲

文章目录 前言一、Amazon ECS二、 Amazon EKS三、Amazon EC2四、Elastic Beanstalk五、AWS Fargate六、 AWS Lambda (serverless)七、Amazon EBS7.1 EBS生命周期 八、Amazon Elastic File System (EFS) -共享文件系统九、什么是 Amazon S3?9.…

anoconda 安装报错

表现形式:Output folder: D:\anoconda\Lib Extract: _nsis.py Extract: _system_path.py Output folder: D:\anoconda........................ 解决办法: 网址:Index of /anaconda/archive/ | 清华大学开源软件镜像站 | Tsinghua Open Sour…

Django教程|数据统计图表(echarts、highchart)

前言 highchart,国外。 echarts,国内。 本项目集成 hightchart和echarts图表库实现数据统计功能。 包括:折线图,柱状图,饼图和数据集图。 效果图 echats Highcharts 源代码 编写模板(Template&#x…

华为设备vlan下配置MSTP,STP选举

核心代码,不同实例,承载不同流量,为每个实例设置一个根网桥达到分流的效果 stp region-config //进入stp区域的设置 region-name R1 //区域命名为R1 instance 1 vlan 10 …

专业课140+总分410+电子科技大学858信号与系统考研经验,电子信息通信

我的初试备考从4月末,持续到初试前,这中间没有中断。 我是二战考生,准备的稍微晚一些,如果是一战考生,建议在2、3月份开始。 总的时间分配上,是数学>专业课>英语>政治,虽然大家可支配…

DP读书:《openEuler操作系统》(八)TCP、UDP与跨机器通讯

10min速通TCP与UDP 2024 DP读书计算机网络简介TCP/IP协议栈A. 物理层1.信号及信道传递2.信号调制与调解3.信道的复用 B. 数据链路层1.封装成帧2.透明传输3.差错控制 C. 网络层1.IP2.ARP3.路由选择协议 D. 传输层1.端口号2.3.UDP 2024 DP读书 第八章 跨机器通讯 在第六章之中&a…

ES的索引库操作

索引库操作 索引库就类似数据库表,mapping映射就类似表的结构。 我们要向es中存储数据,必须先创建“库”和“表”。 1.mapping映射属性 mapping是对索引库中文档的约束,常见的mapping属性包括: type:字段数据类型&a…

java数据结构与算法:单链表 SinglyLinkedList

单链表 SinglyLinkedList 创建实现类并实现方法 package com.lhs;public class SinglyLinkedList<E> implements List<E>{// 头节点private Node<E> first;// 尾节点private Node<E> last;// 节点数量private int size;public static class Node<…

微信小程序开发学习笔记《12》下拉刷新事件

微信小程序开发学习笔记《12》下拉刷新事件 博主正在学习微信小程序开发&#xff0c;希望记录自己学习过程同时与广大网友共同学习讨论。建议仔细阅读官方文档 一、什么是下拉刷新 下拉刷新是移动端的专有名词&#xff0c;指的是通过手指在屏幕上的下拉滑动操作&#xff0c;…

php反序列化漏洞基础

一、序列化 serialize(): 序列化是将对象或类转换为字符串的过程,以便在程序运行过程中对其进行持久化存储或传输的操作。在PHP中,序列化主要用于将类对象或数组转换成字节流的形式,以便于存储在磁盘或传输到其他系统。 通过序列化,可以将对象或类转换成一串字符串,然后可…

linux相关操作

1&#xff1a;掌握虚拟机快照的制作和还原 然后转到就欧克了&#xff0c;相当于游戏存档。 2&#xff1a;linux基础命令 1&#xff1a;掌握linux系统的目录结构 linux没有盘符概念&#xff0c;只有一个根目录/&#xff0c;所有文件都在它之下 路径的描述方式&#xff1a; 在l…

uniapp中uview组件库丰富的Table 表格的使用方法

目录 #平台差异说明 #基本使用 #兼容性 #API #Table Props #Td Props #Th Props 表格组件一般用于展示大量结构化数据的场景 #平台差异说明 AppH5微信小程序支付宝小程序百度小程序头条小程序QQ小程序√√√√√√√ #基本使用 本组件标签类似HTML的table表格&#…

redis被攻击:安全问题

1 必须修改端口号 port 323422 2 必须设置密码&#xff0c;并且有一定的复杂度 requirepass dske#123 3 绑定bind ip bind 127.0.0.1 4 使用无登录权限的用户运行redis 配置文件路径 /www/server/redis/redis.conf 一般都是安装文件里 如果忘记密码和端口号也可以去配置文件…

计算机毕设项目(一)基于flask+mongo+angular实现爬取加密货币信息并使用LSTM模型预测价格的论坛可视化平台

文章目录 加密货币平台项目介绍技术栈1. 用户管理2. 新闻和帖子管理3. 加密货币数据4. 对话获取5. 数据获取 服务端代码完整代码 加密货币平台项目介绍 这个项目是一个基于 Flask 和 MongoDB 的深度学习应用程序&#xff0c;通过爬虫爬取加密货币行情和介绍信息&#xff0c;并…