芯片巨头决战先进封装技术

来源:内容翻译自「technews」,谢谢。

以《战略绪论》一书闻名的近代法国战略大师薄富尔曾说:「战略的要义是『预防』而非『治疗』,『未来和准备』比『现在和执行』更重要。」半导体业界亦同,当摩尔定律所预言的制程微缩曲线开始钝化,将不同制程性质的芯片,透过多芯片封装包在一起,以最短的时程推出符合市场需求的产品,就成为重要性持续水涨船高的技术显学。

而这些先进芯片封装也成为超级电脑和人工智能的必备武器。别的不提,光论nVidia 和AMD 的高效能运算专用GPU、Google 第二代TPU、无数「人工智能芯片」,就处处可见HBM 记忆体的存在。

毕竟天底下没有面面俱到的半导体制程,观察到先进制程晶圆厂每隔4 年成本倍增的「摩尔第二定律」,也突显了电晶体单位成本越来越高的残酷现实。AMD 处理器从7 纳米制程开始全面性「Chiplet 化」,将7 纳米制程的CPU 核心和12 纳米制程的I/O 记忆体控制器分而治之,实乃不得不然。

发展方兴未艾的先进封装技术

也因此,无论台积电还是英特尔,无不拼命加码,相关产品也如雨后春笋一个个冒出头来,而AMD 更在未来产品计划,大剌剌写着「融合2.5D 与3D 的X3D 封装」(虽然大概也是直接沿用台积电的现有技术),以达成超过时下产品十倍的记忆体频宽密度。

稍微替各位复习一下什么是「2.5D」封装,台积电拥有超过60 个实际导入案例的CoWos(Chip-on-Wafer-on-Substrate)算是这领域最为知名的技术,包含近期夺下超级电脑Top500 榜首的Fujitsu A64FX。英特尔用自家EMIB(Embedded Multi-Die Interconnect Bridge)将Kaby Lake 处理器与AMD Vega 绘图核心「送作堆」的Kaby Lake-G,也曾是轰动一时的热门话题。

有别于「2D」的SiP(System-in-Package),2.5D 封装在SiP 基板和芯片之间,插入了矽中介层(Silicon Interposer),透过矽穿孔(TSV,Through-Silicon Via)连接上下的金属层,克服SiP 基板(像多层走线印刷电路板)难以实做高密度布线而限制芯片数量的困难。

「叠叠乐」的3D 封装就不难理解了,台积电就靠着可减少30% 的封装厚度InFO(Integrated Fan-Out),在iPhone 7 的A10 处理器订单争夺战击败三星,终结了消费者购买iPhone 6S 还得担心拿到三星版A9 的尴尬处境(笔者不幸曾是受害者之一)。但3D 封装的散热手段与热量管理,也是明摆在半导体产业界的艰巨挑战。

英特尔相对应的3D 封装技术则为Foveros。最近正式发表、代号Lakefield 的「混合式x86 架构处理器」,堆叠了「1 大4 小核心」的10 纳米制程(代号P1274)运算芯片、22 纳米制程(代号P1222)系统I/O 芯片和PoP(Package-on-Package)封装的记忆体,待机耗电量仅2mW。

英特尔2019 年7 月公布的Co-EMIB,用2.5D 的EMIB 连接多个3D 的Foveros 封装,「整合成具备更多功能」的单一芯片。为EMIB 概念延伸的ODI(Omni-Directional Interconnect)则用来填补EMIB 与Foveros 之间的鸿沟,为封装内众多裸晶连接提供更高灵活性,细节在此不论。

连接封装内多颗裸晶之间的汇流排也是不可或缺的技术。

英特尔在2017 年将EMIB 连接裸晶的「矽桥」(Silicon Bridge)正式命名为「先进介面汇流排」(AIB,Advanced Interface Bus)并公开免费授权,2018 年将AIB 捐赠给美国国防先进研究计划署(DARPA),当作免专利费的裸晶互连标准,MDIO(Multi-Die I/O)则是AIB 的下一代。台积电相对应技术则为LIPINCON(Low-voltage-INPackage-INterCONnect),规格与英特尔互有长短。

超级电脑用的系统单芯片并非IBM 和Fujitsu 的专利

长期关心ARM 指令集相容处理器与超级电脑的读者,想必对先前采用Fujitsu A64FX 处理器打造的日本理化学研究所的「富岳」并不陌生。这颗台积电7 纳米制程并CoWoS 2.5D 封装4 颗8GB HBM2 记忆体的产物,堪称当代最具代表性的「超级电脑专用系统单芯片」,让人不得不想起十几年前的IBM BlueGene /L。

曾在21 世纪初期靠着「地球模拟器」(Earth Simulator)独领风骚两年多的NEC,其SX 向量处理器的最新成员SX-Aurora TSUBASA,也是台积电16 纳米制程、2.5D 封装6 颗8GB HBM2 记忆体的超级电脑心脏。

而英特尔的Xeon Phi 系列更是知名代表,透过2.5D 封装包了8 颗2GB MCDRAM(Multi-Channel DRAM),可设定为快取记忆体、主记忆体或混合两者之用。虽然Xeon Phi 家族两年前惨遭腰斩,中断自从Larrabee 以来的「超级多核心x86」路线,英特尔决定整个砍掉重练,一步一脚印重头打造「传统GPU」当作未来高效能运算与人工智能应用的基础,但异质多芯片封装的重要性仍不减反增,最起码被英特尔从AMD 挖角、主导GPU 发展的Raja Koduri,自己是这样讲的,也没什么怀疑的空间。

不过AMD 也并未缺席,并看似有后来居上的气势,而且这并非突发奇想,早在2010 年之前,就开始进行长期研究,至今超过十年,并「很有可能」以EHP(Exascale Heterogenous Processor)之名开花结果,融合2.5D 与3D 封装的X3D 则是达成EHP 的关键。

Exa 意指Peta 的1 千倍,也是近年来超级电脑的下一个竞争指标,像预定采用AMD Zen 2 世代EPYC 处理器的美国国家核能安全管理局El Capitan 超级电脑,理论运算效能就超过2ExaFlops。

AMD 自从2007 年购并ATI 之后,整合处理器与绘图核心的APU 之路,一直走得相当挣扎,迟迟难以找到适合的产品规格与市场定位,不是CPU 不够好、GPU 不够强、就是两者都不上不下,到了Zen 2 世代才算脱胎换骨。

这些年来,AMD 在超级电脑市场逐渐边缘化,今年6 月的Top500 只剩下10 台AMD CPU 和一台AMD GPU,更需要强力的新兵器,才能「突破英特尔和nVidia 的封锁」。身为「超级电脑APU」的EHP 就成为AMD 默默进行的新方向。

以加拿大ATI身份在2010年申请「藉由假矽穿孔替3D封装进行导热」(Dummy TSV To Improve Process Uniformity and Heat Dissipation)专利为起点,AMD一路累积了「记忆体运算的快取资料一致性」 (2016年)、「3D晶粒堆叠的热量管理」(2017年)、「拥有极致频宽与可延展性能耗比的GPU架构」(2017年)、「记忆体内运算的阵列」(2018年) 、「回圈脱离预测(2018年)以改善闲置模式的效率」到「混合CPU与GPU的动态记忆体管理」(2018年)等成果,确定了AMD在2015年的财务分析师大会透露的「伺服器专用APU」与当年7月IEEE Micro发表的「藉由异质运算实现百亿亿级运算」(Achieving Exascale Capabilities through Heterogeneous Computing)计划并不是玩假的,更何况现在AMD当家作主的还是一位以务实闻名的全球薪酬最高女性执行长。

根据已公开的资料,EHP 概略规格如下,但后面势必将随着技术演进而有更动:

32 个CPU 核心(当时是8 颗4 核心CCD)。

8 颗32 个GPU CU,总计256 CU 与16,384 个串流处理器(那时预定是GCN 第五代的Vega,看来将会推进到CDNA)。

8 块4GB HBM2 记忆体堆叠。

时脉1GHz 时,双倍浮点精确度理论效能为16TeraFlops,如十万颗组成超级电脑,就是1.6ExaFlops,预估耗电量为20MW。

AMD 在2015 年7 月IEEE Micro 专文,表示32 个CPU 核心、320 个时脉1GHz 的GPU CU(20,480 个串流处理器)、3TB/s 记忆体频宽、160W 功耗,是能耗比最好的组态,总之实际的产品一定会变。

EHP 和X3D 的技术资产会「推己及人」到Zen 3 世代EPYC 处理器「Milan」的可怕传言(像10 颗CCD 凑80 核心或塞HBM2 当L4 之类的),一直没有停过。

EHP 也有配置芯片封装以外的外部记忆体,像断电后资料不会消失的NVRAM(Non-Volatile RAM,如英特尔/Micro 的3D Xpoint 和发展中SST-MRAM 等)和「记忆体内运算」的PIM (Processing-In-Memory,记忆体内建位元运算电路),相关的动态记忆体管理与快取资料一致性,也是AMD 需要克服的技术门槛,至于软体环境的完备性,更将是AMD 能否追上nVidia 的最核心因素。

同场加映:nVidia 也没吃饱闲着

近来因「光明的未来前瞻性」而让公司市值一举超越英特尔的nVidia,在高效能运算、人工智能与自驾车等领域的优势地位几乎是牢不可破。除了帐面硬体规格,发展了十多年的CUDA 应用环境生态、远远超越英特尔和AMD 的GPU 虚拟化(这让客户使用AMD GPU 部署云端个人电脑的效益会明显不如nVidia,云端服务业者的虚拟GPU 亦同,比较一下可负荷用户端数量,就知道差别有多大了)和更多「不足外人道也」之处,才是支撑nVidia 股价的真正根基。

将话题拉回多芯片封装这件事,就算不论以「训练」为主的高阶GPU,nVidia 连「推论」用的芯片研究案都走向「多芯片封装延展性」。

但各位有没有想过一个更有趣的可能性:既然nVidia 高阶GPU 都这么大颗,干么不干脆「顺便」包一颗高效能的ARM(或RISC-V)指令集相容处理器,不再是英特尔、AMD 处理器的「附属品」,让GPU 变身成「可自行开机的超级电脑系统单芯片」?

事实上,nVidia GPU 内本来就有内建好几颗简称为Falcon(Fast Logic Controller)的微控制器,用来辅助GPU 运算处理,像支援影像图形解码到安全性机制,或减轻CPU 执行驱动程式的负担,如以前因为Windows 作业系统的延迟程序呼叫(DPC,Deferred Procedure Call)会逾时而不能进行的排程等。

2016 年,nVidia 先采用柏克莱大学的开源RISC-V 指令集相容处理器Rocket,开发出第一代Falcon 微控制器,2017 年第二代产品扩展到64 位元,并自行新增自定义的新指令。前述由27 颗封装而成的RC18 推论芯片,也是RISC-V 核心,每秒可执行128 兆次推论,功耗仅13.5W。

那么未来,假如nVidia 将「更多的工作」搬到GPU 内的RISC-V 核心,特别是驱动程式涉及大量GPU 底层机密资讯的「下面那一层」丢过去,或经由GPU 虚拟化掩盖起来,又会发生什么事?这件牵扯到另一个少人知悉的潜在需求了:来自官方的开源驱动程式。

弦外之音:GPU 驱动程式开源的冲击

台面上看不到或少人着墨的议题,举足轻重的程度往往远超乎看热闹外行人的想像。

无论超级电脑还是人工智能(尤其是人命关天的自动驾驶),基于安全性考量,芯片厂商的客户或多或少都希望检视所有程式码,理所当然包含驱动程式,这就是GPU 驱动程式开源之所以如此重要的主因。但偏偏这又是暗藏大量商业机密的黑盒子,要如何满足客户需求又不让机密外泄,大方释出「官方开源驱动程式」,就是nVidia、AMD 甚至即将「GPU 战线复归」的英特尔,已经面对很久的机会与挑战。

技术的发展跟着应用的需求走,这恐怕也将会注定AMD 靠着「超级电脑APU」反攻高效能运算市场的企图能否悲愿成就的锁钥。点到为止,剩下的就留给各位慢慢思考了。