AI世界如今最大的赢家是谁?
毫无疑问是黄仁勋的NVIDIA,布局早,技术强,根本找不到对手,“躺着”就可以挣大钱了。
现在,NVIDIA又公布了最新一代Hopper H100计算卡在MLPerf AI测试中创造的新纪录。
(资料图片仅供参考)
Hopper H100早在2022年3月就发布了,GH100 GPU核心,台积电4nm工艺,800亿晶体管,814平方毫米面积。
它集成18432个CUDA核心、576个Tensor核心、60MB二级缓存,搭配6144-bit位宽的六颗HBM3/HBM2e高带宽内存,支持第四代NVLink、PCIe 5.0总线。
相比于ChatGPT等目前普遍使用的A100,H100的理论性能提升了足足6倍。
不过直到最近,H100才开始大规模量产,微软、谷歌、甲骨文等云计算服务已开始批量部署。
MLPerf Inference是测试AI推理性能的行业通行标准,最新版本v3.0,也是这个工具诞生以来的第七个大版本更新。
对比半年前的2.1版本,NVIDIA H100的性能在不同测试项目中提升了7-54%不等,其中进步最大的是RetinaNet全卷积神经网络测试,3D U-Net医疗成像网络测试也能提升31%。
对比A100,跨代提升更是惊人,无延迟离线测试的变化幅度少则1.8倍,多则可达4.5倍,延迟服务器测试少则超过1.7倍,多则也能接近4倍。
其中,DLRM、BERT训练模型的提升最为显著。
NVIDIA还颇为羞辱性地列上了Intel最新数据中心处理器旗舰至强铂金8480+的成绩,虽然有56个核心,但毕竟术业有专攻,让通用处理器跑AI训练实在有点为难,可怜的分数不值一提,BERT 99.9%甚至都无法运行,而这正是NVIDIA H100的最强项。
此外,NVIDIA还第一次公布了L4 GPU的性能。
它基于最新的Ada架构,只有Tensor张量核心,支持FP8浮点计算,主要用于AI推理,也支持AI视频编码加速。
对比上代T4,L4的性能可加速2.2-3.1倍之多,最关键的是它功耗只有72W,再加上单槽半高造型设计,可谓小巧彪悍。
几乎所有的大型云服务供应商都部署了T4,升级到L4只是时间问题,Google就已经开始内测。