近些年,GPU在业界的重要性愈加凸出,无论是在高性能计算,还是在消费级领域,其对用户的粘性越来越强,英伟达的火爆就是得益于其核心的GPU技术和产品,在这种情况下,传统巨头英特尔坐不住了,原本只是在消费级市场生产集成GPU显卡,市场需求的变化使得英特尔开始组建独立GPU研发团队,并投入了越来越多的资源,以应对英伟达和AMD的竞争,特别是在高性能计算领域。
在高性能应用领域,对GPU的功耗和成本可控的要求越来越高,这就对相关技术提出了更高的要求,包括芯片设计方法、EDA工具、制程工艺,以及封装技术,要想实现高性能与功耗、成本的有效平衡,以上这些技术环节缺一不可,而随着摩尔定律的逐步“失效”,先进封装技术的重要性越来越凸出,而英特尔、AMD和英伟达这三巨头都看到了这一环节的重要性,并不断加强研发力度。特别是在近期,这三家公司不约而同地在MCM(多芯片模块)方面披露了重要信息。
MCM打入GPU
MCM是为解决单一芯片集成度低和功能不够完善的问题而生的,它把多个高集成度、高性能、高可靠性的die,在高密度多层互联基板上用SMD技术组成多种多样的电子模块系统,形成多芯片模块。MCM具有以下特点:封装延迟时间缩小,易于实现模块高速化;缩小整机/模块的封装尺寸和重量;系统可靠性大大提高。
以前,MCM主要用于CPU和存储设备,特别是在CPU领域应用较为普遍,如早期IBM的Power4双核处理器,就是4块双核Power4以及附加的L3高速缓存形成的MCM,还有英特尔的PentiumD(研发代号:Presler)、Xeon,以及AMD的Zen2架构Ryzen(核心代号:Matisse)、EPYC处理器等,都是应用MCM的典型代表。
近些年,在AMD的引领下,MCM封装技术开始走向GPU。之所以如此,主要是因为传统显卡是带有多个GPU的PCB板卡,需要连接两个独立显卡的Crossfire或SLI桥接器。传统的SLI和CrossFire需要PCIe总线来交换数据、纹理、同步等。由于GPU之间的渲染时间会产生同步问题,因此在许多情况下,传统的双GPU显卡,即单个PCB上的两个芯片由它互连,每个芯片都有自己的VRAM。SLI或CrossFire的能耗很大,冷却也是一个挑战,这些在很长一段时间内都困扰着工程师。
MCMGPU则是一个单独的封装,其板载桥接器取代了传统两个独立显卡之间的Crossfire或SLI桥接器。
在高性能计算应用领域,这种MCMGPU的优势很明显,也值得花费更多时间和精力在解决封装和互连方面的软件问题,以应对更高的MCM设计复杂度。目前来看,MCMGPU主要用于数据中心和云计算应用领域。随着技术的不断成熟,以及PC应用性能的提升,其在消费电子领域的应用也将会出现。
三巨头发力
最早将MCM封装技术引入GPU的是AMD。2020年,该公司把游戏卡与专业卡的GPU架构分家了,游戏卡的架构是RDNA,而专业卡的架构叫做CDNA,首款产品是InstinctMI100系列。2021年,AMD的Q2财报确认CDNA2GPU已经向客户发货了,其GPU核心代号是Aldebaran,它成为AMD第一款采用MCM封装的产品,是为数据中心准备的。在PC方面,2022年引入下一代RDNA3架构后,基于MCM的消费级RadeonGPU也会出现。
制造多芯片计算GPU类似于制造多核MCMCPU,例如Ryzen5000或Threadripper处理器。首先,将芯片靠得更近可以提高计算效率。AMD的Infinity架构确保了高性能互连,有望使两个芯片的效率接近一个的。其次,使用先进的工艺技术批量生产多个小芯片比大芯片更容易,因为小芯片通常缺陷较少,因此比大芯片的产量更好。
前些天,在2021年财报电话会议上,AMD确认,今年会有几项重要产品发布,包括基于RDNA3架构的GPU,也就是RadeonRX7000。目前来看,该系列最新显卡会有三款GPU,分别是Navi31、Navi32和Navi33,其中,Navi31和Navi32将采用MCM封装。之前有传闻称,Navi31和Navi32的InfinityCache将采用3D堆栈的设计,会单独添加到MCD小芯片中,与Zen3架构上采用3DV-Cache的原理类似,性能会有较大提升。
由于Navi31和Navi32采用了MCM封装,AMD将会使用两种不同制程,GPU会使用台积电的5nm工艺,缓存I/O芯片则会采用台积电的6nm工艺。
英伟达也在跟进MCM封装GPU。
2017年,英伟达展示了通过四个小芯片构建的设计方案,不但提升了性能,还有助于提高产量(较小的芯片良品率会提高),而且还允许将更多的计算资源集合在一起。这种多芯片设计还有助于提高供电效率,具有更好的散热效果。
近日,英伟达研究人员发表了一篇技术文章,概述了该公司对MCM的探索,英伟达目前在MCM封装GPU上的做法称为“ComposableOnPackageGPU”(COPA),该团队讲述了COPAGPU的各项优势,尤其是能够适应各种类型的深度学习工作负载。
由于传统融合GPU解决方案正迅速变得不太实用,研究人员才想到到COPA-GPU的理念。融合GPU解决方案依赖于由传统芯片组成的架构,辅以高带宽内存(HBM)、张量核心/矩阵核心(MatrixCores)、光线追踪(RT)等专用硬件的结合。
此类硬件或在某些任务下非常合适,但在面对其它情况时却效率低下。与当前将所有特定执行组件和缓存组合到一个包中的单片GPU设计不同,COPA-GPU架构具有混合/匹配多个硬件块的能力。如此一来,它就能够更好地适应当今高性能计算只能呈现的动态工作负载、以及深度学习(DL)环境。
这种整合更适应多种类型工作负载的能力,可带来更高水平的GPU重用。更重要的是,对于数据科学家们来说,这使他们更有能力利用现有资源,来突破潜在的界限。