老黄狂拼CPU!英伟达发800亿晶体管显卡,以及世界最快AI超算Eos

拼装」CPU,4纳米显卡,世界最快AI超算,还有游戏开发者的元宇宙 。这次,老黄的百宝箱里都有啥?
今天,老黄穿着他的皮衣又来了!
3月22日晚,英伟达GTC 2022开幕 。
虽然没有了那个熟悉的厨房,但这次的阵仗反而更加豪华 。
英伟达用Omniverse把新总部从内到外渲染了一遍!
800亿个晶体管的Hopper H100
随着拔地而起的平台,英伟达推出了为超算设计的最新AI显卡Hopper H100 。
相比于「只有」540亿个晶体管的前辈A100,英伟达在H100中装入了800亿个晶体管,并采用了定制的台积电4纳米工艺 。
也就是说,H100将具有更好的功率/性能特性,并在密度方面有一定程度上的改进 。
在算力上,H100的FP16、TF32以及FP64性能都是A100的3倍,分别为2000 TFLOPS、1000 TFLOPS和60 TFLOPS 。
此外,H100还增加了对FP8支持,算力高达4000 TFLOPS,比A100快6倍 。毕竟在 这方面,后者由于缺乏原生FP8支持而不得不依赖FP16 。
内存方面,H100也将默认支持带宽为3TB/s的HBM3,比A100的HBM2E提升1.5倍 。
H100支持的第四代NVLink接口可以提供高达128GB/s的带宽,是A100的1.5倍;而在PCIe 5.0下也可以达到128GB/s的速度,是PCIe 4.0的2倍 。
同时,H100的SXM版本将TDP增加到了700W,而A100为400W 。而75%的功率提升,通常来说可以预计获得2到3倍的性能 。
为了优化性能,Nvidia还推出了一个新的Transformer Engine,将根据工作负载在FP8和FP16格式之间自动切换 。
Hopper架构全新的DPX指令,将为动态规划的计算速度带来高达40倍的提升 。
在AI训练中,H100可以提供高达9倍的吞吐量 。以Megatron 530B为基准,则可以提供16倍至30倍的推理性能 。在3D FFT(快速傅里叶变换)和基因组测序等HPC应用中,则可提升6-7倍 。
DGX服务器系统
第四代英伟达DGX服务器系统,将世界上第一个采用H100显卡构建的AI服务器平台 。
DGX H100服务器系统可提供满足大型语言模型、推荐系统、医疗保健研究和气候科学的海量计算需求所需的规模 。
其中,每个服务器系统包含8个H100显卡,通过NVLink链接为单个整体,晶体管总计6400亿个 。
在FP8精度下,DGX H100可以提供32 PFLOPS的性能,比上一代高6倍 。
此外,每个DGX H100系统还包括两个NVIDIA BlueField-3 DPU,用于卸载、加速和隔离网络、存储和安全服务 。
8个NVIDIA ConnectX-7 Quantum-2 InfiniBand网络适配器提供每秒400 Gb的吞吐量来连接计算和存储模块——速度是上一代系统的两倍 。
第四代NVLink与NVSwitch相结合,可在每个DGX H100系统中的每个GPU之间提供每秒900 GB的连接,是上一代的1.5倍 。
而最新的DGX SuperPOD架构则可连接多达32个节点、总共256个H100显卡 。
DGX SuperPOD可提供1 EFLOPS的FP8性能,同样也是前代的6倍 。
世界上最快的AI超算
由576个DGX H100服务器系统和4608个DGX H100显卡组成的「Eos」超级计算机预计将提供18.4 EFLOPS的AI计算性能,比目前世界上最快的超算——日本的「富岳」快4倍 。
对于传统的科学计算,Eos有望提供275 PFLOPS的性能 。
Transformer Engine
作为新Hopper架构的一部分,将显著提高AI的性能,大型模型的训练可以在数天甚至数小时内完成 。
传统的神经网络模型在训练过程中采用的精度是固定的,因此也难以将FP8应用在整个模型之中 。
而Transformer Engine则可以在FP16和FP8之间逐层训练,并利用英伟达提供的启发式方法来选择所需的最低精度 。
此外,Transformer Engine可以用2倍于FP16的速度打包和处理FP8数据,于是模型的每一层可以用FP8处理的数据都可以提升2倍的速度 。

推荐阅读