​1:1公有云能力整体输出,腾讯云“七剑”下云端

【全球云观察 | 科技热点关注】

曾几何时,云计算技术的兴起,为千行万业的数字化创新带来了诸多新机遇,同时也催生了新产业新业态新模式,激发出高质量发展的科技新动能。很显然,如今的云创新已成为高质量发展的重要引擎之一,有助于大力推动数字经济的创新发展。

01

「to B化浪潮异常凶猛」,

公有云“出圈”势在必行

随着企业上云成为习以为常的事,云计算不断驱动行业创新,系列成果竞相涌现,进而引发了公有云to B化大潮。全球云观察分析指出,赋能千行万业的高质量创新发展,云厂商加强公有云整体能力的输出,将在行业数智化发展中起到至关重要的作用。

然而,一个全新的AI时代正在开启,生成式人工智能(Generative artificial intelligence,GAl)迅速发展并影响着人类社会,给千行万业带来前所未有的震荡与变革。就此,Gartner最近分析指出,生成式人工智能正在推动中国企业数据中心设计转型,鉴于监管要求以及数据隐私和安全方面的担忧,相比国外企业,中国企业更倾向于在本地而非通过公有云部署生成式人工智能。

然而,之前采取本地部署的传统私有云却面临新的挑战,难以胜任生成式人工智能等新业务发展,维护管理复杂麻烦暂且不说,软硬件更新迭代成本也很高,此外应用部署与迭代效率低下,敏捷高效更是难以为继。

这将意味着什么呢?公有云厂商生逢其时,重任在肩,针对生成式人工智能的发展,施展云能力的舞台将变得无比广阔。

如此一来,对于公有云能力整体输出全面、专业、到位的云厂商,必然能在这一轮大模型的AI大潮中,赢得先机,乘风破浪,直挂云帆济沧海,实现自身的高质量发展。这一切,又将迫使公有云厂商持续走下云端,走出公有云的圈子,开启新一轮to B行业落地的热烈较量。

就其云计算不同类型而言,公有云有着成本效益、灵活性和可扩展性等优势,适用于初创公司、中小企业和个人用户等需要快速、灵活和低成本的应用场景。分布式云有着可用性、可靠性和可扩展性等优势,适合大型企业和金融机构等需要高度可靠和可用,同时兼顾在多个地理位置部署多个云平台的应用场景。

腾讯云不仅在公有云领域有着成熟的产品与技术阵营,而且在分布式云领域准备充分且创新一直就没有停止过。

目前,腾讯云基础设施覆盖地区达21个,运营可用区58个,全球服务器数量100W+,全球加速节点数 3200+,全球带宽储备200T。资源决定实力,能力决定未来。腾讯云以卓越的技术能力打造丰富的行业解决方案,构建开放共赢的云端生态,助力行业数智化的高质量发展。

长期以来,从公有云到分布式云,腾讯云凭借其深厚的实力不断贴近行业数智化需求,赋能千行万业的创新发展。早在2021年,腾讯云就已经宣布推出了自己的分布式云战略,正式官宣“出圈”。腾讯云公有云能力不断下沉,在分布式云领域持续创新进化,进一步丰富产品与服务,有效整合公有云能力,助力企业数智化转型的加速,为分布广阔的千行万业贡献分布式云的创新力量。

深入分析来看,在分布式云领域,腾讯云分布式云形成了不同云计算形态、不同部署位置和不同规模的全场景覆盖,并帮助用户实现一致管理、高效便捷的建云、上云、用云与管云,助力降低部署与维护成本,提升应用效率。腾讯云分布式云价值优势尤为突出,不仅专属安全,而且弹性便捷,这主要归功于腾讯云1:1公有云能力的复制,与公有云同构而生,加上持续不断丰富的云服务、生态服务,从而成为了在AI大时代下的新一代本地化云平台首选。

腾讯云分布式云在传统私有云替代、本地合规上云、边缘算力、行业云、产业云、集团-分支云、本地智算平台、大型智算中心和企业业务出海等典型场景实践中得以能力的充分发挥,不仅具备与公有云一致体验,而且为具体场景应用带来低延迟、高可靠性、高性价比的效果,同时也满足本地化算力的数据合规性。即便是强合规的政府、金融等应用场景,腾讯云分布式云的云边端协同能力也可以发挥到极致,实现数智化转型的降本增效。

很显然,腾讯云分布式云是一朵与时俱进的云。在这之前,为to B千行万业创新输出,腾讯云分布式云形态不断丰富,已经打造了专属可用区CDZ、本地专用集群CDC、专有云TCE、云原生套件TCS、云原生分布式云(TKE Anywhere/Connector/Register Node)和边缘安全加速平台EdgeOne总计六大分布式云的核心产品线,有效支撑了用户云原生跨平台算力管理、全位置算力覆盖、专有合规上云等不同需求,助推行业数智化发展,并在政府、运营商、能源、金融、工业、交通出行、互联网、教育、医疗等行业领域已经实现广泛落地,打造了一朵引人注目的金融云与政务云

随着人工智能技术的飞速发展,AI基础设施已经成为支撑企业智能化转型的关键要素。为了满足企业在AI领域的极致需求,腾讯云一直致力于打造高性能、高可用的AI基础设施。

在过去的发展中,腾讯云服务了大量的公有云客户和自研业务,积累了丰富的产品技术能力。在GPU硬件服务器基础之上,为客户提供了高性能计算集群HCC软件能力、RDMA智能高性能网络IHN、高性能存储TurboFS、软件加速框架Taco,打造出高性能、高性价比均领先业界的强大AI算力,可大幅提升AI训练和推理业务性能,实现万亿参数大模型训练时间缩短 80%。

为此,腾讯云融入诸多创新能力于2024年7月正式推出腾讯云智算套件,持续将公有云积攒的雄厚技术能力再次1:1对外输出,支持私有化与分布式云部署。腾讯云智算套件不仅适用企业组织基于自有硬件搭建高性能专有智算云,满足单租户情况下的大规模物理算力集群场景、自研大模型场景与资源共享场景,而且也适用平台化运营形态,满足多租户情况下的云化算力集群场景、资源隔离场景,以及对外售卖、计量计费场景。

由此可见,腾讯云如今“出圈”的能力表现得更为细致化、更为极致化、更为接地气。不过,作为早已“出圈”的腾讯云,都如此倚重智算套件的七大技术能力,这样说来,该七大技术能力必然呈现出了异乎寻常的创新。

02

「“七剑”下云端」,

新品“智算套件”到底暗藏什么玄机?

在云厂商to B化发展大趋势中,对于腾讯云而言,七大技术能力通过智算套件解决方案强力输出,犹如“七剑”下天山一样锋芒出鞘,谁与争锋。

或许你会问,“七剑”下云端,智算套件到底暗藏着什么玄机呢?下天山的七剑之所以在江湖上非常有吸引力,在于七剑拥有各自的神奇属性与独特功能。智算套件的七大技术创新也同样拥有不同的目的与价值,并且能为用户智算需求带来应有的创新回报。

由龙剑之高性能计算集群HCC。晦明大师采用玄铁打造的由龙剑名不虚传,一剑既出,无坚不摧,众剑臣服。腾讯云的高性能计算集群HCC好似“由龙剑“,无往不利。HCC采用腾讯云星星海自研服务器,对外提供最新代次GPU实例。凭借腾讯云独创的软硬件协同优化,支持训练性能提升30%以上,为大模型训练提供高性能、高带宽、低延迟的智算能力支撑。可谓性能超强,且又高可用,对于模型训练各种算力挑战迎刃而解,超100小时连续训练不在话下。

莫问剑之智能高性能网络IHN。智能算力存在“木桶短板效应”,只是依靠GPU卡不足以发挥算力优势,相关网络、存储等因素对其影响也颇大。正所谓大集群不等于大算力。

莫问剑属于天山七剑中造型最为古朴的利器,乌黑剑刃,修长弹性,剑招善变,应对自然,使用者需要有大智慧。软硬一体的智算网络解决方案(IHN)犹如莫问剑,计算子网络的高带宽、高智能可以灵活地应对各类智算场景下的网络挑战。可谓莫问智算有愧,只求IHN无悔。在对外输出IHN时也如莫问剑一样富有弹性,腾讯云提供软硬一体的IHN产品将腾讯云领先的GPU网络能力向用户输出。

IHN拥有3.2Tbps超高接入带宽的RoCE网络,相比上一代产品实现了60%的通信效率提升。值得一提的是,IHN采用一套网络架构灵活支持多种异构卡混跑接入,性能与智能的双双优化不仅降低了网络通信时间,还间接提升了GPU的利用率。

IHN全栈自研的软硬一体技术保证了极致的性能和统一的产品体验,业界一流的建设效率加上分钟级集群自愈能力、全链路的精细监控让客户应对自如,完整地保障了客户算力的稳定运行。RDMA创新标杆,IHN当之无愧。

青干剑之高性能分布式文件存储TurboFS。青干剑以陨石锻造,千锤百炼,青铜凹凸,奇钝无比,能守大局。何为大模型训练与推理的大局,其核心必在数据存储。腾讯云自研高性能存储TurboFS好比青干剑一样,历经多重创新,基于分布式架构,采取多级缓存加速,实现100GBps存储带宽与1000万IOPS性能,满足大模型训练需要的极致性能,能守住用户AI应用的数据存储大局。

事实上,大模型训练、推理对存储系统要求能存储更多数据,拥有更大吞吐,实现更高并发。因为TurboFS属于腾讯云自研的高性能并行文件存储,代码都在自己手里,性能调优能力自然更佳,可以帮助用户优化大模型训练、高性能计算、视频制作等极端场景下的存储性能,特别是针对智算中心千卡万卡并发读写有奇效,确保用户的应用成功,让业务无感知。

腾讯云在自研并行文件存储系统的过程中,还实现了不少新突破,而这些技术突破让用户模型训练享受到业界少有的存储高性能。比如通过持久化客户端缓存技术,将裸金属服务器本地NVMe SSD和Turbo文件系统构成统一命名空间,实现微秒级延时,融入闪存技术的参与自然可以解決大数据量、高带宽、低延时的大模型场景诉求。此外因为支持自动冷热数据分层技术,自动沉降低频访问的Checkpoint和样本文件,从而带来存储成本的极致优化。

竞星剑之云原生调度编排TKE&qGPU。竞星剑的特点剑轻灵巧,藏身方便,神速迅猛,亦动亦静,“疾雷不及掩耳,‌迅电不及瞑目”之势解决战斗。云原生调度编排TKE&qGPU与竞星剑的特质不谋而合,采用容器编排技术,敏捷高效支持智算应用。

腾讯云容器服务平台TKE支持原生K8S API,通过插件机制和高性能基础设施进行集成,同时支持多种容器GPU插件,支持RDMA高性能网络。qGPU作为腾讯自研的新一代容器GPU虚拟化方案,精准切分GPU实现GPU资源虚拟化,让GPU资源实现更好的池化,调用GPU资源神速迅猛,可以很好应对异构智算挑战,解决智算资源利用率低的问题,支持在离线混合部署能力,GPU利用率压榨到极致,从而也带来了部署密度20%的提升。同时还拥有GPU Manager的算力隔离能力,让算力智能化实现GPU共享中的干扰问题。

日月剑之训练加速TACO Train。针对大模型训练,软件加速框架TACO带来前所未有的性能支撑,可以为用户带来创新体验。TACO Train好比AI训练性能加速的日月剑,日月剑由两把相连的母子剑组成,攻击范围可大可细,亦可双剑一体出击。TACO时而双剑合一实现训练与推理的一体化,时而单剑出击满足训练高性能加速需求。可谓变化多样,满足AI训练与推理的性能苛刻要求。

作为腾讯云自研的大模型训练加速引擎,TACO Train对网络协议、通信策略、AI框架、模型编译有着独创性的大量系统级优化,大幅节约训练调优和算力成本,成为大模型型训练加速的日月剑,可以根据用户训练的规模实现智算资源的优化利用。

舍神剑之推理加速TACO LLM。舍神剑攻势力大,宽大钝重,能开山辟石,善担当。腾讯云推出的这款易部署的大语言模型推理加速引擎,面对模型参数大的压力从不退缩,犹如舍神剑那样善于担当重任,能将并行计算能力与分布式推理能力发挥到极致,应对用户“模型大,一张卡放不下”的尴尬。

TACO-LLM采用分布式推理框架,拥有动态Batching、Paged Attention等多种特性,支持多个主流模型。作为AI的核心引擎,TACO-LLM可以快速接收用户的请求,并且迅速进行处理和回应。因为TACO-LLM基于腾讯云异构计算产品研发,所以更能充分利用计算资源的并行计算能力,从而可以带来更高吞吐和更低时延,处理模型推理请求吞吐性能提升了78%。模型再大也不怕,TACO-LLM加速提升语言模型的推理效能,带来兼顾高吞吐和低时延的推理效果,从而减少了生成结果的等待时间,提高推理流程效率。

天瀑剑之通信套件TCCL。天瀑剑作为双头剑,攻守兼备,细长善藏,剑光善变,颤动如飞瀑流水,幻化无穷。作为腾讯集合通讯加速套件TCCL,宛如一把天瀑剑那样善于应对各种变数的挑战,以自身强大的集合通讯能力,敏捷支持AI大模型训练和推理,其强大的网络拓扑感知技术能够减少了50%~80% SPINE流量,带来大模型训练场景下的极致的网络性能。

诚然,“七剑”下云端,凭借1:1公有云能力整体输出,打造了智算套件,不仅让腾讯云拥有了新的超强战斗力,而且也可以让更多的行业用户从中享受到智算带来的红利,从而加速数智化转型进程,迎来高质量发展的新机遇。

03

「小结」

Al Infra整装进发,数智赋能勠力争先

全球云观察分析认为,从全球千行万业的发展趋势来看,下一个十年,AI创新和AI算力创新将是不可或缺的新质生产力。AI基础设施理所当然成为了支撑企业数字化、智能化转型的关键要素。为了满足千行万业在AI时代的新算力需求,作为公有云领域著名代表厂商,腾讯云基于强大的公有云体系与能力,自研攻克多重技术难题,锻造出助力数智化转型的“七剑”,特别整体封装为腾讯云智算套件,构建起了智算时代的腾讯云“Al Infra”。

进一步分析来看,厚积薄发才能铸就辉煌,而成熟稳定的智算套件才是用户之选。腾讯云智算套件的推出是基于服务公有云百万客户大规模训练、推理等多种智算场景,满足算力、吞吐、时延极致性能,相当于支撑百万张卡集群量级的性能需求。以及服务腾讯内部超600个应用,加持腾讯混元大模型,支持数十万张卡集群量级的运行,支撑日均调用次数达2亿次的高并发,智算套件可谓集公有云与腾讯自生态应用的能力于一身。而腾讯云智算套件的七大技术能力组合,也可以称得上千锤百炼磨“七剑”了。如今出鞘下云端,必然将掀起一场云厂商to B化的新热潮。

况且无论是由龙剑之高性能计算集群HCC、莫问剑之智能高性能网络IHN、青干剑之高性能分布式文件存储TurboFS、竞星剑之云原生调度编排TKE&qGPU、日月剑之训练加速TACO Train、舍神剑之推理加速TACO LLM,还是天瀑剑之集合通讯库TCCL,七剑齐出,数智争先,在公有云、分布式云领域都将锋芒毕露。

今有诗云:

千锤百炼磨七剑,顺势出鞘下云端。

云上全能全输出,数智赋能力争先。

骄阳盛夏,七剑出鞘,开箱即用,智算尝鲜。因此,我们有理由相信,腾讯云智算套件将让更多企业的数智化发展变得轻松起来。同时,一个全新的“Al Infra”正在公有云、分布式云中脱颖而出,这意味着腾讯云在AI与大模型时代将获得全新崛起,我们拭目以待。

目前,Al Infra的组成已经十分丰富与完善,除了强大的智算能力,还主要包括数据管理与提效(向量数据库+大数据ES)、开发增质(Cloud Studio +AI代码助手)等全面能力。最近,腾讯云整合在AI基础设施方面的技术积累,携手Gartner联名发布了业内首个《AI原生云建设与加速》白皮书,指引企业在AI原生时代找到价值、成本和风险的最佳平衡点,并探索未来创新的无限可能。

- END-

欢迎文末评论补充!

【全球云观察|全球存储观察 |科技明说|阿明观察】专注科技公司分析,用数据说话,带你看懂科技。本文和作者回复仅代表个人观点,不构成任何投资建议。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/46587.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

液氮罐搬运过程中的安全注意事项有哪些

在液氮罐搬运过程中,安全性是至关重要的考虑因素。液氮是一种极低温的液体,其温度可达零下196摄氏度,在接触到人体或物体时会迅速引发严重的冷冻伤害。因此,正确的搬运和使用液氮罐是保障操作安全的关键。 液氮是一种无色、无味的…

RK3568笔记四十:设备树

若该文为原创文章,转载请注明原文出处。 一、介绍 设备树 (Device Tree) 的作用就是描述一个硬件平台的硬件资源,一般描述那些不能动态探测到的设备,可以被动态探测到的设备是不需要描述。 设备树可以被 bootloader(uboot) 传递到内核&#x…

分布式服务框架zookeeper+消息队列kafaka

一、zookeeper概述 zookeeper是一个分布式服务框架,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,如:命名服务,状态同步,配置中心,集群管理等。 在分布式环境下,经常需要对应用/服…

项目的一些操作

一、发送qq邮箱验证码以及倒计时 要发送验证码需要用到邮箱的授权码&#xff1a; qq邮箱获取方式&#xff0c;打开qq邮箱点设置找到如下界面&#xff1a; 然后获取授权码&#xff1b; 导入依赖 <dependency><groupId>com.sun.mail</groupId><artifactId&…

LeetCode 算法:单词搜索 c++

原题链接&#x1f517;&#xff1a;单词搜索 难度&#xff1a;中等⭐️⭐️ 题目 给定一个 m x n 二维字符网格 board 和一个字符串单词 word 。如果 word 存在于网格中&#xff0c;返回 true &#xff1b;否则&#xff0c;返回 false 。 单词必须按照字母顺序&#xff0c;通…

详解MLOps,从Jupyter开发到生产部署

大家好&#xff0c;Jupyter notebook 是机器学习的便捷工具&#xff0c;但在应用部署方面存在局限。为了提升其可扩展性和稳定性&#xff0c;需结合DevOps和MLOps技术。通过自动化的持续集成和持续交付流程&#xff0c;可将AI应用高效部署至HuggingFace平台。 本文将介绍MLOps…

kotlin compose 实现应用内多语言切换(不重新打开App)

1. 示例图 2.具体实现 如何实现上述示例,且不需要重新打开App ①自定义 MainApplication 实现 Application ,定义两个变量: class MainApplication : Application() { object GlobalDpData { var language: String = "" var defaultLanguage: Strin…

Linux TFTP服务搭建及使用

1、TFTP 服务器介绍 TFTP &#xff08; Trivial File Transfer Protocol &#xff09;即简单文件传输协议是 TCP/IP 协议族中的一个用来在客户机与服务器之间进行简单文件传输的协议&#xff0c;提供不复杂、开销不大的文件传输服务。端口号为 69 2、TFTP 文件传输的特点 tftp…

3、宠物商店智能合约实战(truffle智能合约项目实战)

3、宠物商店智能合约实战&#xff08;truffle智能合约项目实战&#xff09; 1-宠物商店环境搭建、运行2-webjs与宠物逻辑实现3-领养智能合约初始化4-宠物领养实现5-更新宠物领养状态 1-宠物商店环境搭建、运行 https://www.trufflesuite.com/boxes/pet-shop 这个还是不行 或者…

ArkUI状态管理

State装饰器 在声明式UI中&#xff0c;是以状态驱动试图更新 状态 (State) 指驱动视图更新的数据(被装饰器标记的变量) 试图(View) 基于UI描述渲染得到用户界面 说明 1.State装饰器标记的变量必须初始化&#xff0c;不能为空 2.State支持Object、classstring、number、b…

[Vulnhub] devt-improved slog_users+vim权限提升+nano权限提升+passwd权限提升+Lxc逃逸权限提升

信息收集 IP AddressOpening Ports192.168.101.149TCP:22,113,139,445,8080 $ nmap -p- 192.168.101.149 --min-rate 1000 -sC -sV PORT STATE SERVICE VERSION 22/tcp open ssh OpenSSH 7.6p1 Ubuntu 4 (Ubuntu Linux; protocol 2.0) | ssh-hostkey: | …

9.11和9.9哪个大?GPT-4o也翻车了

今天刷到了这个问题&#xff0c;心血来潮去问下chatgpt-4o&#xff0c;没想到疯狂翻车... 第一次问&#xff1a; GPT一开始给出了难绷的解答&#xff0c;让我想起了某短视频软件评论区里对某歌手节目排名的质疑哈哈哈哈哈 但是在接下来的进一步询问和回答中它反应过来了。 第…

JavaWeb笔记_Response对象

一.Response对象 1.1 Response对象概述 a.专门负责给浏览器响应信息&#xff08;响应行&#xff0c;响应头&#xff0c;响应体&#xff09;的对象 b.我们主要使用的是跟HTTP协议相关的Response对象&#xff1a;HTTPServletResponse&#xff0c;继承了ServletResponse&#x…

MAVSDK-Java开源库的SDK库macOS平台编译

1.先安装好JDK17 2.克隆MAVSDK-Java源码 3.检测工程./gradlew check 发现未安装protoc-gen-mavsdk 安装后要添加到环境变量 4.安装protoc-gen-mavsdk pip3 install protoc-gen-mavsdk安装路径为: /opt/anaconda3/lib/python3.11/site-packages/protoc_gen_mavsdk

“社群+”生态下的开源AI智能名片源码:驱动商业与社会连接的新引擎

摘要&#xff1a;在“社群”生态日益成为主流趋势的今天&#xff0c;开源AI智能名片源码作为技术创新与社群运营的深度融合体&#xff0c;正逐步展现出其重塑商业格局、深化社会连接的巨大潜力。本文旨在深入探讨开源AI智能名片源码的技术特性、在“社群”生态中的具体应用、对…

Postman导出excel文件

0 写在前面 在我们后端写接口的时候&#xff0c;前端页面还没有出来&#xff0c;我们就得先接口测试&#xff0c;在此记录下如何使用postman测试导出excel接口。 如果不会使用接口传参可以看我这篇博客如何使用Postman 1 方法一 2 方法二 3 写在末尾 虽然在代码中写入文件名…

电流测量分流电阻

电流测量分流电阻 测量电流的设备称为安培计。大多数现代安培计测量已知电阻的精密电阻上的电压降。电流的计算使用欧姆定律&#xff1a;我五R 大多数电流表都内置电阻器来测量电流。但是&#xff0c;当电流对于电流表来说太高时&#xff0c;需要不同的设置。解决方案是将电流…

Chromium CI/CD 之Jenkins实用指南2024- Windows节点开启SSH服务(七)

1.引言 在现代软件开发和持续集成的过程中&#xff0c;自动化部署和远程管理是不可或缺的关键环节。SSH&#xff08;Secure Shell&#xff09;协议以其强大的安全性和灵活性&#xff0c;成为连接和管理远程服务器的首选工具。对于使用Windows虚拟机作为Jenkins从节点的开发者而…

Visual Studio Code 实现远程开发

Background 远程开发是指开发人员在本地计算机上进行编码、调试和测试&#xff0c;但实际的开发环境、代码库或应用程序运行在远程服务器上。远程开发的实现方式多种多样&#xff0c;包括通过SSH连接到远程服务器、使用远程桌面软件、或者利用云开发环境等。这里我们是使用VSCo…

【操作系统】文件管理——文件共享与保护,文件系统的结构(个人笔记)

学习日期&#xff1a;2024.7.18 内容摘要&#xff1a;文件共享&#xff0c;文件保护&#xff0c;文件系统的层级结构和全局结构&#xff0c;虚拟文件系统 文件共享 操作系统提供的文件共享功能&#xff0c;可以让多个用户共享使用同一个文件。文件共享和文件复制是不一样的&a…