推进半导体技术发展的五大趋势-2
趋势3:3D技术使更多的异构集成成为可能
在工业领域,通过利用2.5D或3D连接的异构集成来构建系统。这些有助于解决内存问题,可在受形状因素限制的系统中添加功能,或提高大型芯片系统的产量。随着逻辑PPAC(性能-区域-成本)的放缓,SoC 的智能功能分区可以提供另一个缩放旋钮。一个典型的例子是高带宽内存栈(HBM),它由堆叠的DRAM芯片组成,这些芯片通过短的interposer链路直接连接到处理器芯片,例如GPU或CPU。最典型的案例是Intel Lakefield CPU上的模对模堆叠, AMD 7nm Epyc CPU。在未来,我们希望看到更多这样的异构SOC,它是提高芯片性能的最佳桥梁。
在imec,我们通过利用我们在不同领域(如逻辑、内存、3D…)所进行的创新,在SoC级别带来了一些好处。为了将技术与系统级别性能联系起来,我们建立了一个名为S-EAT的框架(用于实现高级技术的系统基准测试)。这个框架可评估特定技术对系统级性能的影响。例如:我们能从缓存层次结构较低级别的片上内存的3D分区中获益吗?如果SRAM被磁存储器(MRAM)取代,在系统级会发生什么?
为了能够在缓存层次结构的这些更深层次上进行分区,我们需要一种高密度的晶片到晶片的堆叠技术。我们已经开发了700nm间距的晶圆-晶圆混合键合,相信在不久的将来,键合技术的进步将使500nm间距的键合成为可能。
通过3D集成技术实现异质集成。我们已经开发了一种基于sn的微突起互连方法,互连间距降低到7µm。这种高密度连接充分利用了透硅通孔技术的潜力,使>16x更高的三维互联密度在模具之间或模具与硅插接器之间成为可能。这样就大大降低了对HBM I/O接口的SoC区域需求(从6 mm2降至1 mm2),并可能将HBM内存栈的互连长度缩短至多1 mm。使用混合铜键合也可以将模具直接与硅结合。我们正在开发3µm间距的模具到晶圆的混合键合,它具有高公差和放置精度。
由于SoC变得越来越异质化,一个芯片上的不同功能(逻辑、内存、I/O接口、模拟…)不需要来自单一的CMOS技术。对不同的子系统采用不同的工艺技术来优化设计成本和产量可能更有利。这种演变也可以满足更多芯片的多样化和定制化需求。
趋势4:NAND和DRAM被推到极限;非易失性存储器正在兴起
内存芯片市场预测显示,2020年内存将与2019年持平——这一变化可能部分与COVID-19减缓有关。2021年后,这个市场有望再次开始增长。新兴非易失性存储器市场预计将以>50%的复合年增长率增长,主要受嵌入式磁随机存取存储器(MRAM)和独立相变存储器(PCM)的需求推动。
NAND存储将继续递增,在未来几年内可能不会出现颠覆性架构变化。当今最先进的NAND产品具有128层存储能力。由于晶片之间的结合,可能会产生更多的层,从而使3D扩展继续下去。Imec通过开发像钌这样的低电阻字线金属,研究备用存储介质堆,提高通道电流,并确定控制压力的方法来实现这一路线图。我们还专注于用更先进的FinFET器件取代NAND外围的平面逻辑晶体管。我们正在探索3D FeFET与新型纤锌矿材料,作为3D NAND替代高端存储应用。作为传统3D NAND的替代品,我们正在评估新型存储器的可行性。
对于DRAM,单元缩放速度减慢,EUV光刻可能需要改进图案。三星最近宣布EUV DRAM产品将用于10nm (1a)级。除了探索EUV光刻用于关键DRAM结构的模式,imec还为真正的3D DRAM解决方案提供了构建模块。
在嵌入式内存领域,我通过大量的努力来理解并最终拆除所谓的内存墙,CPU从DRAM或基于SRAM的缓存中访问数据的速度有多快?如何确保多个CPU核心访问共享缓存时的缓存一致性?限制速度的瓶颈是什么? 我们正在研究各种各样的磁随机存取存储器(MRAM),包括自旋转移转矩(STT)-MRAM,自旋轨道转矩(SOT)-MRAM和电压控制磁各向异性(VCMA)-MRAM),以潜在地取代一些传统的基于SRAM的L1、L2和L3缓存(图4)。每一种MRAM存储器都有其自身的优点和挑战,并可能通过提高速度、功耗和/或内存密度来帮助我们克服内存瓶颈。为了进一步提高密度,我们还在积极研究可与磁隧道结相结合的选择器,这些是MRAM的核心。
趋势5:边缘人工智能芯片行业崛起
边缘 AI预计在未来五年内将实现100%的增长。与基于云的人工智能不同,推理功能是嵌入在位于网络边缘的物联网端点(如手机和智能扬声器)上的。物联网设备与一个相对靠近边缘服务器进行无线通信。该服务器决定将哪些数据发送到云服务器(通常是时间敏感性较低的任务所需的数据,如重新培训),以及在边缘服务器上处理哪些数据。
与基于云的AI(数据需要从端点到云服务器来回移动)相比,边缘 AI更容易解决隐私问题。它还提供了响应速度和减少云服务器工作负载的优点。想象一下,一辆需要基于人工智能做出决定的自动汽车。由于需要非常迅速地做出决策,系统不能等待数据传输到服务器并返回。考虑到通常由电池供电的物联网设备施加的功率限制,这些物联网设备中的推理引擎也需要非常节能。
今天,商业上可用的边缘 AI芯片,加上快速GPU或ASIC,可达到1-100 Tops/W运算效率。对于物联网的实现,将需要更高的效率。Imec的目标是证明推理效率在10.000个Tops /W。
通过研究模拟内存计算架构,我们正在开发一种不同的方法。这种方法打破了传统的冯·诺伊曼计算模式,基于从内存发送数据到CPU(或GPU)进行计算。使用模拟内存计算,节省了来回移动数据的大量能量。2019年,我们演示了基于SRAM的模拟内存计算单元(内置22nm FD-SOI技术),实现了1000Tops/W的效率。为了进一步提高到10.000Tops/W,我们正在研究非易失性存储器,如SOT-MRAM, FeFET和基于IGZO(铟镓锌氧化物)的存储器。