
英伟达BlackwellGPU代表了连年来最紧要的GPU微架构变革之一,但迄今清寒精明的官方白皮书。
着名半导体商讨机构SemiAnalysis历时数月,对Blackwell架构进行了系统性微基准测试,初度公开了该架构在AI职责负载下的硬件性能上限数据。
测试拆伙表露,Blackwell在张量中枢(TensorCore)笼统量、内存子系统领宽及新式2SMMMA提醒等重要维度上均接近表面峰值,但性能发达高度依赖提醒风物建树,部分场景下存在较着的带宽瓶颈。这一发现对AI基础尺度投资者和芯片采购方具有平直参考价值——架构后劲能否充分开释,取决于软件层面的抽象调优。
SemiAnalysis已将关系基准测试代码库开源,测试所用B200节点由Nebius和Verda提供。商讨团队同期文牍,后续将蔓延至TPUPallas内核、TrainiumNKI内核及AMDCDNA4汇编的基准测试。
架构中枢变化:TMEM引入与2SMMMA
从Hopper到Blackwell,英伟达对MMA关系提醒的PTX抽象层进行了多项紧要挽回。
最显耀的变化是引入了张量内存(TMEM)用于存储MMA累加器。在此前架构中,线程隐式捏有MMA运算拆伙;Blackwell改为由软件在MMA作用域内显式惩办TMEM,变嫌了线程与计较拆伙之间的扫数权关系。
与此同期,tcgen05操作当今由单一线程代表扫数这个词CTA(互助线程阵列)发出,而非此前Hopper架构中以warp或warpgroup为单元发出。这一变化在CuTeMMA原子中有平直体现:Blackwell使用ThrID=Layout,而Hopper使用ThrID=Layout。
Blackwell还引入了TPC作用域的TMA和MMA,撑捏两个协同CTA跨SM对推论tcgen05.mma,分享操作数,从而在缩短每个CTA分享内存带宽需求的同期,提供更高运算强度的MMA提醒。此外,该架构原生撑捏带微缩放的亚字节数据类型,并引入了集群启动死心(CLC)行为捏久化CTA内核中动态职责调节的硬件撑捏。
芯片物理布局:双Die架构与300周期跨Die延伸
SemiAnalysis通过逆向工程工夫,揭示了B200芯片的物理拓扑结构。
商讨团队欺诈PTX%%smid提醒,通过启动不同大小的集群来反向揣测SM到GPC(图形处理集群)的映射关系。拆伙表露,B200存在部分TPC独占逻辑GPC的情况,这些TPC从不与其他TPC协同调节。
通过让每个SM遍历填满L2缓存的指针跟踪数组并测量各SM间的拜谒延伸,商讨团队构建了SM间距离矩阵。矩阵明晰呈现出两组SM,平均L2拜谒延伸差距卓越300个时钟周期,对应的恰是两个Die之间的跨Die拜谒处分。
基于此,商讨团队揣测B200的Die级TPC散播如下:
这一物理布局各异意味着,即便逻辑建树接洽的两块GPU,其物理SM散播也可能不同,组成潜在的性能非细目性开头。

内存子系统:LDGSTS与TMA的性能畛域
内存子系统测试聚焦于两类异步拷贝提醒:LDGSTS(异步拷贝)和TMA(张量内存加快器)。
LDGSTS方面,测试遮掩了FlashInfer多头提防力(MHA)内核的典型建树。拆伙表露,幸运8LDGSTS内存笼统量在32KiB在途字节时弥散,峰值约为6.6TB/s。16字节加载在接洽在途字节数下略优于8字节加载,且蹧跶更少推论资源。延伸测试表露,LDGSTS基线延伸约为600纳秒,在途字节卓越8KiB后延伸接近翻倍,原因在于渊博线程因MIO(内存输入输出)节流而停滞。

TMA方面,峰值笼统量的达到较着晚于LDGSTS。在低于32字节在途数据时,异步拷贝笼统量略优于TMA;卓越该阈值后TMA追上并可捏续蔓延至128KiB。延伸方面,在途数据低于12KiB时异步拷贝延伸略低,超事后TMA延伸大幅攀升。
TMA多播测试表露,显式TMA多播可圆善摒除L2流量,收场理念念的"1/集群大小"L2字节比。隐式多播(各CTA稀少发出TMA加载至接洽数据)在灵验内存笼统量上与显式多播相等,但在卓越64字节在途数据后,L2缓存流量削减效力运转着落。

张量中枢地能:风物依赖性显耀,2SMMMA收场圆善弱蔓延
张量中枢测试是本次商讨的中枢部分,拆伙揭示了BlackwellMMA性能对提醒风物的高度敏锐性。
笼统量方面,关于1SMMMA,M=64的建树最高仅能达到表面峰值的50%,而M=128可接近100%。这说明M=64仅欺诈了一半数据通路。关于2SMMMA,M=128在N=64时笼统量为峰值的90%,其余N尺寸均接近100%;M=256则在扫数建树下均看护接近100%的峰值笼统量,因为M=256等效于每SM处理M=128,可充分欺诈完整数据通路。

AB布局影响不异显耀。当两个输入矩阵均存储于分享内存(SS风物)时,M=128在N
2SMMMA收场了圆善的弱蔓延,相干于1SMMMA在使用两倍计较资源时取得2倍加快。在SS风物的小风物建树下,由于操作数B在两个SM间分片,以致出现卓越2倍的加快。商推敲断明确:应弥远使用给定SMEMtile尺寸下可用的最大提醒风物,以取得最高笼统量
延伸方面,扫数建树下延伸均随N从64增至128线性增长,N=256时出现提高。数据类型延伸排序呈现法令性:S8

执行在途提醒数测试表露澳洲幸运8,在典型内核使用的1至4条在途MMA提醒场景下,4条在途MMA的笼统量上限约为表面峰值的78%至80%,且1SMMMA比2SMMMA高出约5个百分点。
开云kaiyun体育(中国)官网

备案号: