为AI大模型训练“修路”：腾讯云首发H800 GPU，集群算力提升三倍

首页 > 资讯 > > 内容页

为AI大模型训练“修路”：腾讯云首发H800 GPU，集群算力提升三倍

2023-04-15 05:37:52 21Tech

在大模型的训练过程中，算力、算法和数据缺一不可。

来源：21tech（News-21）

作者：白杨

(资料图片仅供参考)

编辑：骆一帆卢陶然

图源：图虫

4月14日，腾讯云正式发布新一代HCC（High-Performance Computing Cluster）高性能计算集群。据悉，该集群采用腾讯云星星海自研服务器，搭载英伟达最新代次H800 GPU，服务器之间采用3.2T超高互联带宽，可为大模型训练、自动驾驶、科学计算等提供高性能、高带宽和低延迟的集群算力。

腾讯云的实测数据显示，新一代集群的算力性能较前代提升高达3倍，是目前国内性能最强的大模型计算集群。去年10月，腾讯完成首个万亿参数的AI大模型——混元NLP大模型训练，当时的训练时间为11天，如果基于新一代集群，训练时间将缩短至4天。

在AI大模型火热的当下，算力也成为业界关注的重点。这是因为在大模型的训练过程中，算力、算法和数据缺一不可。随着围绕AI大模型的全球军备竞赛打响，业界对算力的需求也更加旺盛。

去年，有研究机构预估，未来对一个大模型训练所需的算力，可能每三、四个月就需要翻一番，这意味着一年就要增加10倍。而今年在ChatGPT的推动下，算力的增长也将进一步提速。

腾讯云异构计算产品总监宋丹丹此前接受21世纪经济报道记者采访时表示，大模型对算力的要求分为训练和推理两个阶段。其中，训练需要短时间内并行算力非常全且非常大，并且要在短时间内能够交付，所以对算力的量级、算力的稳定性弹性扩容能力都有较高的要求。

现阶段，AI大模型正处于训练需求的爆发期，大家都需要海量的可扩缩容的高性能算力，而且这些算力需要稳定交付和计算。所以对云厂商来说，目前正迎来一个全新的市场机遇。

首发H800

过去几年，算力其实也在因需而变，以往的计算已经变成了智算。所谓智算，也称异构计算，是用不同制程架构、不同指令集、不同功能的硬件组合起来解决问题的计算架构。例如，相对于只用CPU的通用计算，在服务器里使用CPU+GPU就是异构计算。

智算背后的逻辑，是让最适合的专用硬件去做最适合的事。GPU在并行计算任务为主的AI训练/推理和图形图像处理等专用场景上，比传统CPU效率更高且延迟更低。

腾讯云此次发布的HCC，也是利用并行计算理念，通过CPU和GPU节点的一体化设计，将单点算力性能提升至最强。除此之外，腾讯云新一代HCC备受关注的原因，是它在国内首发了英伟达H800 GPU。

资料显示，H800是英伟达新代次处理器，基于Hopper架构，对跑深度推荐系统、大型AI语言模型、基因组学、复杂数字孪生等任务的效率提升非常明显。与A800相比，H800的性能提升了3倍，在显存带宽上也有明显的提高，达到3 TB/s。

虽然论性能，H800并不是最强的，但由于美国的限制，性能更强的H100无法供应给中国市场。有业内人士表示，H800相较H100，主要是在传输速率上有所差异，与上一代的A100相比，H800在传输速率上仍略低一些，但是在算力方面，H800是A100的三倍。

先进芯片不等于先进算力

芯片受限，固然是个卡脖子难题，也需要投入更多力量去解决。但从AI大模型训练的角度，近日多位AI行业人士在接受记者采访时均提出，算力的提升不是单纯堆卡，而是存在“木桶效应”，计算、存储、网络一旦出现瓶颈就会导致运算速度严重下降。光增加GPU卡或计算节点，但网络时延没降低，并不能线性地提升算力收益。

所以，用上了先进芯片并不代表就拥有了先进算力。以算力对网络的要求为例，目前GPU并行是大模型训练的必备技术，不同于传统并行以加快计算速度为目的，大模型的并行计算往往还要考虑怎样将庞大的参数有机地分布到多张GPU卡中，并保持不同GPU卡之间有效的通信，整体配合完成大模型的训练部署。

即使是目前业界已有的GPU分布式训练方案，也严重依赖于服务器之间的通信、拓扑、模型并行、流水并行等底层问题的解决情况。如果只有分布式训练框架，甚至都无法正常启动训练过程。这也是为什么当时GPT-3已发布一年，却只有少数企业可以复现GPT-3。

先进算力的背后，是先进芯片、先进网络、先进存储等一系列的支撑，缺一不可。比如在网络层面，模型参数量越大，对带宽的需求就越高。相比单点GPU故障只影响集群算力的千分之几，一条链路的负载不均导致网络堵塞，就会成为木桶短板，影响到数十个甚至更多GPU的连通性。在这种情况下，其他链路即使畅通无阻，通信时间仍然会大幅度增长，进而直接影响训练效率。

此外，集群训练也会引入额外的通信开销，导致N个GPU算力达不到单个GPU算力的 N 倍。业界开源的GPU集合通信库（比如NCCL），也不能将网络的通信性能发挥到极致。

优化计算集群弥补芯片短板

正因算力的“木桶效应”，也给了云厂商可施展的舞台。通过对单机算力、网络架构和存储性能进行协同优化，提高算力效率，云厂商的高性能计算集群是能够弥补芯片一部分传输损耗的。

腾讯云此次发布的新一代HCC，在网络层面，利用自研的星脉网络为新一代集群带来了3.2T超高通信带宽。实测结果显示，搭载同样的GPU，3.2T星脉网络相较1.6T网络，能让集群整体算力提升20%。

存储层面，训练场景下，几千台计算节点会同时读取一批数据集，需要尽可能缩短数据集的加载时长。腾讯云的新一代集群，引入了自研的文件存储、对象存储架构，具备TB级吞吐能力和千万级IOPS，可支持不同场景下对存储的需求。

底层架构之上，针对大模型训练场景，新一代集群集成了腾讯云自研的TACO Train训练加速引擎，对网络协议、通信策略、AI框架、模型编译进行大量系统级优化，大幅节约训练调优和算力成本。

另外值得关注的是，腾讯多款自研芯片也已经量产。其中，用于AI推理的紫霄芯片、用于视频转码的沧海芯片已在腾讯内部交付使用。据腾讯云披露，紫霄目前已经在腾讯头部业务规模部署，可提供高达3倍的计算加速性能和超过45%的整体成本节省。

数据显示，腾讯云目前的分布式云原生调度总规模超过1.5亿核，并提供16 EFLOPS（每秒1600亿亿次浮点运算）的智算算力。对于近半年突然火热的AI大模型，宋丹丹表示，市场环境的变化没有打乱腾讯云的产品规划，但确实是让产品节奏提前了，因为AI业务和计算算力是相互促进的，AI技术迭代对算力提出更高的要求，那我们也会有更高的动力去让算力产品更快演进。

21Tech

南财集团特色栏目

往期推荐

苹果新机取消固态按键凌云半导体、瑞声科技股价下跌

04-12

英特尔CEO帕特·基辛格任职后首次来华：中国市场扮演重要角色

04-12

B站，钱去哪了？

04-12

TCL加注巴西市场今年7月冰洗产品将落地

04-12

责任编辑：

为AI大模型训练“修路”：腾讯云首发H800 GPU，集群算力提升三倍

为AI大模型训练“修路”：腾讯云首发H800 GPU，集群算力提升三倍

“万能应用程序X”获重要拼图 推特将允许用户交易股票等资产

国际能源署称“欧佩克+”减产将威胁全球经济复苏-天天观点

环球速递！半导体芯片再次热门，28位基金经理发生任职变动

田野如画 环球新资讯

百事通！海南乐东县委直属机关工作委员会书记李雄涉嫌严重违纪违法接受审查调查

热点！双溪市场监管所开展预防野生毒蘑菇中毒宣传活动

焦点热文：梅赛德斯AMGGTRPro首次驾驶回顾保时捷911打手

冰轮环境：一季度净利预增85%-121% 环球最资讯

当前视讯！2023年4月14日广东省次氯酸钠价格最新行情预测

免费领取！初级会计备考资料包-速看料

2023昆明安宁青龙樱桃最全果园名单

人均六七十，一家店一天能卖万串：淄博烧烤有多好吃？

顺丰同城CTO陈霖：让系统与骑手和解｜创新者Innovator

热推荐：农业农村部：到2025年饲料中豆粕用量占比降至13%以下

微信朋友圈可以置顶了，是不是微商特别需要这个功能？-环球头条

“氢易能源”完成数千万元Pre-A轮融资

美国司法部逮捕涉嫌泄露军方机密文件的国民警卫队成员

【独家】拔地参天是指什么生肖，原文作解

广汇能源: 广汇能源股份有限公司董事会第八届第三十次会议决议公告

世界微速讯：运输时间缩短1到2天 全国首趟“快速通关”汽车专列在汉始发

天天快资讯：康力电梯：一季度净利预增120%-150%

当前速讯：乡镇冬奥服务保障工作总结(共3篇)

胖东来与fudi，向山姆进击的两种本土样本 当前关注

2023年3月云南德宏高考英语听力成绩查询入口-世界微头条

世界短讯！司法部、全国普法办部署开展全民国家安全教育日普法宣传活动

外交部：日本单方面决定向海洋排放福岛核污染水将导致不可预测风

世界头条：原神聚香海岸草神瞳位置详情

中广核浙江234MW海上风电场设备技改 （运维期）(谐波治理)项目招标

经最高法核准，制造灭门惨案的吕某某已被执行死刑

印尼投资局计划与宁德时代合作推出特别基金，助印尼发展电动汽车产业 快资讯

天天微速讯：港股异动 | 明源云(00909)再跌超6%创年内新低 公司拟逐步提升央国企在业务中的占比

新奢全能 SUV 极氪 X 正式上市 , 零百加速 3.7s, 有史以来最快的紧凑级豪华车

女子特工队电视剧分集介绍 女子特工队电视连续剧

全新亮相！百度Apollo将在上海车展发布智能汽车开放方案 全球速递

每日讯息!三亚为7名获解救被拐儿童寻亲

预算执行的保障和监督措施

首创环保(600008.SH)：拟公开发行不超20亿元公司债券-环球最新

全球今日报丨迷漫皓齿 郑卫之音_郑卫之音

e0和e1板材_e0板和e1板有什么区别 最资讯

东方游戏文化周开启 多款游戏低价优惠

当前消息！资金流入暴增50倍！债券ETF在韩国受到零售投资者追捧

世界百事通！朱砂手串的功效与作用佩戴禁忌_朱砂手串

焦点速递！一生最爱纳兰词原文_一生最爱纳兰词

焦点热议:天津儿童办理身份证怎么领取？

三男子偷车盗铺 作案后逃往西安被德阳公安跨省抓捕 环球关注

第三届消博会|从消博会看绿色消费新趋势_每日视点

刚刚发布！南通这里23宗好地要拍！

自然资源部：激活大数据“富矿” 让规划更“智慧”-今日快看

每日讯息!隆扬电子（301389）：4月11日北向资金增持2.2万股

不明原因儿童肝炎，查明了吗？——三项独立研究显示与Ⅱ型腺相关病毒有关|环球最新

斗破苍穹等级排名顺序_斗破苍穹等级_天天快看

环球速递！生蚝可以冷冻吗(生蚝可以放冰箱冷冻吗)

玛丽亚那船公司_关于玛丽亚那船公司介绍

开展10项具体合作，川渝合力建设全国高质量充分就业先行区 速看料

长期贫血或是血液病作祟：发病率不足十万分之一，儿童矮小需警惕 世界新资讯

竹山县人民医院在省级大赛中获奖

环球短讯！维信金科利率罗生门

游戏促成长

观察：发小生日送什么礼物好

天天关注：泰瑞机器（603289）4月11日主力资金净卖出144.03万元

“置顶”安全强基础 百日攻坚护发展

【全球报资讯】全志科技4月11日盘中跌幅达5%

微信上锁神器伪锁app 能骗过99%的人-当前观察

全球讯息：全省不少于200家中小企业将尝试数字化转型

连裤袜每天需要换洗吗?

罚没款逾34万！云南云草堂化妆品有限公司经营的洗发产品标签违规受处罚

首次！环台岛演习第三天，多个罕见任务压轴上演！信息量巨大

演习结束！台媒数：解放军3天共出动军机232架次、军舰32艘次

马斯克透露星际飞船首飞时间：就在4月的第3个周末

马天宇给管家开会，有谁注意阚清子的坐姿？果然奇女子-世界热消息

社保少交一个月可以补交吗 怎么补_观察

四川西昌突发森林火灾 200多人参与火灾扑救-速递

“点、线、面”齐发力 南京江宁谷里推进环境污染治理|快看点

当前视讯！深视智能完成数亿元C轮融资，高瓴创投出手

东亚药业(605177)：第三届第十三次监事会会议决议，审议关于2022年度监事会工作报告的议案等多项议案-全球讯息

揭秘安徽“六安首富”发家史：借助国企改制起家，身家190亿

【全球聚看点】农发行丰润区支行组织 观看反腐专题片《永远吹冲锋号》

【环球快播报】从奉贤出发，两小时内车程的踏青目的地

“万能应用程序X”获重要拼图推特将允许用户交易股票等资产

田野如画环球新资讯

世界微速讯：运输时间缩短1到2天全国首趟“快速通关”汽车专列在汉始发

胖东来与fudi，向山姆进击的两种本土样本当前关注

中广核浙江234MW海上风电场设备技改（运维期）(谐波治理)项目招标

印尼投资局计划与宁德时代合作推出特别基金，助印尼发展电动汽车产业快资讯

天天微速讯：港股异动 | 明源云(00909)再跌超6%创年内新低公司拟逐步提升央国企在业务中的占比

女子特工队电视剧分集介绍女子特工队电视连续剧

全新亮相！百度Apollo将在上海车展发布智能汽车开放方案全球速递

全球今日报丨迷漫皓齿郑卫之音_郑卫之音

e0和e1板材_e0板和e1板有什么区别最资讯

东方游戏文化周开启多款游戏低价优惠

三男子偷车盗铺作案后逃往西安被德阳公安跨省抓捕环球关注

开展10项具体合作，川渝合力建设全国高质量充分就业先行区速看料

长期贫血或是血液病作祟：发病率不足十万分之一，儿童矮小需警惕世界新资讯

“置顶”安全强基础百日攻坚护发展

社保少交一个月可以补交吗　怎么补_观察

“点、线、面”齐发力南京江宁谷里推进环境污染治理|快看点

【全球聚看点】农发行丰润区支行组织观看反腐专题片《永远吹冲锋号》

顾晨浩：指数有望向上回补3350缺口关注一季报具备业绩预期差的板块机会｜就市论市_环球即时看

火龙果面皮怎么做不变色火龙果皮和面如何不变色

淄博租房拆迁补偿律师费用怎么算天天热头条

糖尿病人能喝甘蔗汁吗全球速看料

怎样洗涤绒围巾如何洗涤绒围巾

塑料姐妹花冰心林徽因，2位文坛大佬居然为徐志摩争风吃醋？全球报资讯

威固VK70影响/阻隔信号，是真的吗？天天滚动

银行板块涨0.11% 宁波银行涨1.74%居首微动态

北京香格里拉月饼香格里拉月饼|全球速看

子不孝而亲不待树欲静而风不止_子欲养而亲不待树欲静而风不止速读

对话风光储领跑者｜希倍优氢能李留罐：氢能商业化2年可实现碱性电解水制氢未来市场规模最大

“川渝妇幼健康联盟”揭牌成立将使更多妇女儿童受益_每日快报

增加护栏、规范停车，兴国南路通行不再难环球聚焦

新资讯：锦江酒店与雅高酒店集团签署谅解备忘录促进实现各自ESG目标

为何全球这么多人首选iPhone：苹果保值率第一安卓机惨|世界新要闻

太龙药业最新公告：2022年度净亏损7214.02万元同比盈转亏_全球微速讯

一线丨网红难“长红”：虎头局欠租人去楼空或面临破产清算？通讯

衢州市衢江区莲花镇“民情直通车”开到问题现场当前滚动

动态：各地缅怀英烈传承红色基因

大理石地板砖世界微头条

曹冲机智救库吏_曹冲哲理故事相关作文哲理故事大全：羊的结局全球新要闻

广州2022积分入户入围分数什么时候公布每日热议