自然基金重点项目-三维光电混合片上网络关键技术研究:
项目名称:三维光电混合片上网络关键技术研究(批准号61634004)
项目负责人:顾华玺教授(西安电子科技大学)
项目时间:2017年1月-2021年12月
项目主要完成单位:
西安电子科技大学
西安邮电科技大学
项目成果摘要
随着处理器核数增加,电片上网络受到功耗的制约,无法很好地扩展性能,相比于电片上网络,光片上网络的发展也因片上光器件未成熟,导致平面的可扩展性受限,在两者的约束下,光电混合片上网络成为实现大规模、异质集成、垂直互连通信以及高效布局的片上网络设计趋势。本项目围绕三维光电混合片上网络提出了系列创新方法:
(1)在高速硅通孔(TSV)和光硅通孔(TSPV)建模和设计方面
,创新地提出了高速TSV的RLCG等效电路模型和三维集成电路中同轴-环形TSV的解析宽频带等效电路模型,通过研究结构和材料参数对TSV和TPSV模式特性、传输特性及损耗特性的影响、工艺实现方法,为制备TSV/TSPV验证模块及三维光电混合片上网络提供参考。
(2)在片上光路由器设计方面
,创新地提出了一种无源光路由器的通用构造方法,结合时间域、空间域、波长域以及模式域的多域协同交换方式,通过合理的波长与路径规划,融合立体交叉设计思想,为可扩展性强、宽频、缓存机制灵活、流控合理、调度高效的可重配置路由器设计提供了有效解决方案。
(3)在三维光电混合片上网络架构设计方面
,创新地提出了结合电路交换、分组交换、光电路交换、光分组交换等多种交换机制混合的面向三维架构的混合交换机制,确保每两个节点的通信距离只有一跳,且在任何不同子网中的两个节点之间实现了无阻塞通信,降低了片上网络的平均端到端通信时延。
(4)在三维光电混合片上网络全系统仿真系统设计方面
,创新地提出了三维光电混合片上网络全系统仿真平台,深入研究拓扑结构、网络协议和能源系统等关键技术以及网络参数和网络负载在全系统仿真平台中的配置方式,实现拓扑结构、通信协议和能源系统等关键技术的仿真和优化。
(5)在面向视频应用的三维光电片上网络原型设计方面
,创新地提出了基于高级语言的、计算模式统一的视频处理光电混合系统芯片原型,通过引入代码重排技术和程序剖析技术,构建关键依赖数据集和数据依赖图,消除不必要的数据依赖,提升并行执行性能,并完成MPW流片验证和系统测试。
项目组在满足IP核高效互连的高性能计算需求的前提下,研究三维光电混合片上网络的拓扑结构、路由器架构、通信策略以及能源供给系统等关键技术,解决了带宽受限、功耗高等关键问题。三维光电混合片上网络的容量,功耗,可靠性,泛应用性等多项性能均得到优化改善,能够在保证无阻塞全光交换功能的同时,大幅提高了不同端口规模的交换模块设计效率,同时有效地降低了网络通信能耗,为基于三维光电混合互连网络的众核处理器架构研制提供了技术支撑和理论指导,具有重要的科学意义和应用前景。
本项目合计在国内外重要期刊和领域著名国际会议上发表学术论文76篇,含SCI期刊论文54篇,其中中科院二区及以上论文25篇,影响因子超过2的刊物42篇;申请国家发明专利37项,其中14项获得授权;培养博士研究生8人,硕士研究生24人;出版学术专著1本;主办国际学术会议2次。
项目成果展示
(一)高速硅通孔(TSV)和光硅通孔(TSPV)建模和制作方法
当前高速硅通孔(TSV)和光硅通孔(TSPV)建模和设计存在着如下几个关键挑战:
(1)面向目前的 TSV 模型只适用于低频或者高频段,在中频段模型误差很大,针对高速 TSV,需考虑几何尺寸、绝缘层材料特性、绝缘层厚度以及硅衬底的损耗的影响
(2)通过研究波导芯层折射率、波导直径/波导宽度和波导长度对传输损耗的影响,能够得到TSPV 的三维仿真建模结果和指导性结论;在圆锥形 TSPV 的模型建立与仿真中,通过使用控制变量法,改变上端面直径并保持其它参数不变,来研究侧壁倾斜程度以及因侧壁倾斜引起的不同入射端面对光 TSV 归一化光功率损耗的影响。
(3)针对硅片的超薄化工艺需求,即<50μm 的减薄能力,如何研制硅片的超薄化工艺,成为解决磨片工艺产生的损伤层的去除及应力的减小问题的有效解决方案。
项目组设计了一种基于 TSVs 和光栅的单向垂直耦合结构,用于耦合和控制三维光电子集成电路中的光互连。光学 TSV 在短距离内提供高速垂直光学数据传输,光栅耦合器结构实现了光学 TSV 和平面硅波导之间的有效耦合。通过在光TSV 包层末端安装反射镜和远离波导一侧的分布式布拉格反射镜的方式打破了耦合结构水平方向的对称性,能够在1550nm 的条件下提高80% 的光 TSV 与光栅的单向垂直耦合效率。
(二)片上光路由器
随着片上网络规模不断扩大,不同拓扑结构对不同端口数的片上光路由器需求逐渐显现。当前片上光路由器主要由人工根据端口数量要求进行手动设计,效率较低且扩展性差,而现有的通用设计方法构建的光路由器性能有限。因此,本项目提出了一种新的无源光路由器的通用构造方法,在提升光路由器设计效率的同时提高性能。这种构造方法主要包括基于滑窗思想的结构设计算法、基于握手原理的筛选方法、基于波分复用的路由配置、算法-设计图转换方法等程式化步骤,简化了路由与交换模块设计流程,提升设计结构的扩展性与通用性。
本项目构建的光路由器充分利用器件特性与波长资源,通过预先配置的波长实现无阻塞全光交换功能,路由规则简单、控制开销降低,同时在基础元件数量、光信号损耗、设计面积等方面均有显著提升。项目组对基于该方法设计的四端口光路由器进行了流片验证,如图 1 所示,其面积为 320 μm×240 μm。静态测试光谱如图 2 所示,在 1530 -1565 nm 工作波长范围内,光路由器输出端口的光信号信噪比高于 11dB,微环谐振器 3-dB 带宽为 0.2nm、直通端和耦合端的平均消光比分别为 17.6dB 和14.4dB。实验结果表明,该通用构造方法可以满足大规模片上光互连体系的需求,有望成为简化设计流程并提升相关性能的关键技术之一。
图 1 四端口光路由器进行流片验证图
图 2 四端口光路由器静态测试光谱图
针对众核片上网络在面向应用的通信过程中存在缓存利用率低,传统的静态路由器性能较差的问题,项目组设计了一种动态路由器。在片上路由器方面,项目组还基于紧凑型 2×2 混合光子等离子体开关元件,提出了一种新型路由器架构 Waffle,同时设计了采用 XY 路由的网络优化架构 Waffle-XY。由于现有评估方法不能准确预估不同参数下光路由器和光链路的性能问题,项目组提出了面向基于微环谐振器的片上硅光互连性能评估仿真平台,该平台充分考虑不同物理层参数对设计的影响,能够对通信过程中的插入损耗、串扰噪声和 BER 等性能进行快速有效地评估。
(三)三维光电混合片上网络架构
(1)三维光电混合片上网络架构Venus
针对千核片上网络通信距离长、时延高、损耗大等问题,项目组设计了低时延、低损耗的三维光电混合片上网络架构,如图 3 所示。该网络架构结合波长路由技术和三维集成技术,确保每两个节点的通信距离只有一跳,且在任何不同子网中的两个节点之间实现了无阻塞通信,降低了片上网络的平均端到端通信时延。通过使用多个环形结构和设计环与环之间的光网络接口,减少了波导交叉数量和关键路径上经过微环的数量,降低了光信号损耗和串扰。
图 3 三维光电混合片上网络架构Venus,(a)3D架构总览,(b)单层结构,(c)网络接口
(2)三维光电混合片上网络架构MRONoC
项目组结合波分复用技术设计了一种超低建链开销、网络扩展性好和通信无竞争的三维光电混合片上网络MRONoC,如图 4所示。项目组首先设计了基于波长分配策略的基础光片上网络架构,并进一步采用多个波导来拓展基础架构,该方案在减轻波长数量对光片上网络设计带来的压力同时,提高了网络的扩展能力。
图 4 MRONoC网络架构,(a)光层布局,(b)3D架构示意图
(3)三维光电混合片上网络架构TAONoC
针对基于Tile的众核片上网络中的布局问题,项目组提出了一种基于Torus拓扑架构的无源光片上网络架构TAONoC,如图 5所示。采用梳状交换单元和波长组分配机制,通过三个功能模块的独特设计实现了无需仲裁的无竞争通信,可提供更好的网络通信性能;采用无源全光网络架构减少了额外控制单元开销和网络的需求,获得更好的系统能效。谐振波长的超高利用率及梳状交换开关的使用,使得TAONoC对微环谐振器的数量需求很低。
图 5 TAONoC网络架构示意图
(4)三维光电混合片上网络架构TDM-WDM
项目组提出了一种采用时分复用和波分复用技术结合的三维光电混合片上网络架构,如图 6所示,以解决基于光电路交换的片上网络所面临的网络竞争问题。项目组使用遗传算法来优化波长组和时隙的数量。同时设计了一种新型片上光路由器以实现基于时分复用和波分复用技术结合的通信技术。项目组通过建立详细的理论模型来分析所提出的光片上网络中的插入损耗和串扰噪声。
图 6 TDM-WDM网络架构示意图
(5)三维光电混合片上网络架构TTWA
针对传统基于时分复用的光片上网络轮询等待时间过长导致的通信时延高等一系列问题,项目组提出了一种新型基于时分复用光交换的三维光电混合片上网络,如图 7所示。通过采用Torus拓扑结构和基于方向进行波长分配的相邻簇间通信策略,优化了整个网络采用时分复用技术通信过程中的时隙数量,获得了更好的端到端通信时延性能。同时设计了一种新型片上光路由器以支持片上通信。
图 7 TTWA网络架构示意图
(四)三维光电混合片上网络全系统仿真系统
(1)光能源供给网络
针对传统的光片上网络中激光源静态功率开销过大导致能源供给系统效率不足的问题,项目组提出一种基于组的静态激光源供给方案GLaP。如图 8所示,GLaP基于单写多读的交叉开关进行设计和能源供给;项目组设计了通用的激光源功率传输和分配架构以满足不同节点的带宽需求。GLaP中所有激光源在整个网络中共享以降低整体激光源功耗开销。评估结果显示与传统的光片上网络光供给方案相比,GLaP可以减少可观的静态功耗开销。
图 8 基于单写多读crossbar及光能源供给系统布局示意图
项目组还提出了一种基于ARIMA模型的动态供给方案,根据当前网络中的流量信息,预测下一时刻网络中的流量,通过判断流量的变化控制激光源功率。项目组对收集到的非平稳PARSEC流量进行差分处理转化为平稳序列,通过自相关函数ACF和非自相关函数PACF估计模型参数,检验所建立模型是否能满足平稳性、可逆性及模型的残差序列是否为白噪声。实验证明,ARIMA模型对真实应用下的PARSEC流量具有良好的预测效果。
(2)全系统仿真器
面向三维光电混合片上网络,项目组开发了基于OMNET++的全系统网络仿真器。如图 9所示,该网络仿真器分为网络层、节点层和进程层三个模型,分别针对网络级特性、路由节点特性以及处理器核通信进行仿真。该网络仿真器的注入流量包括合成流量集和PARSEC应用一致性流量集两部分。光器件的工艺参数来自Lumerial的仿真数据。基于该仿真器,可以搭建不同节点规模的电网络、光网络以及光电混合网络,以可视化的图形形式展现网络拓扑和处理器布局,以动画形式展现数据在网络中的通信过程,以文本形式输出仿真结果。该网络仿真器对网络拓扑、路由算法、交换机制等不同配置,在不同应用流量下可以实现对时延、吞吐、串扰和功耗等性能的仿真。
图 9 基于OMNET++的全系统网络仿真器
(五)面向视频应用的三维光电片上网络原型
(1)RTL 设计及其系统模型
针对H.264视频编码算法中帧内预测算法、DCT算法、区块滤波算法、整数运动估计算法、分数运动估计算法和运动补偿算法的编码计算过程,项目组提出了一种基于簇的可重构视频阵列处理器结构,芯片整体结构如图 10所示,设计了一种如图 11所示的五级流水线处理单元(PE)。单簇可重构阵列处理器芯片由1个4×4 PE阵列、16个分布式数据Bank、H树型指令传输网络、输入FIFO、输出FIFO、指令/数据下发控制器、数据回收控制器、状态寄存器、输入数据Buffer、输出数据Buffer、帧缓冲区和阵列数据判断单元构成,PE阵列主要用于执行计算功能。
图 10 可重构视频阵列处理器芯片内部结构图
图 11 处理元逻辑结构示意图
(2)芯片原型系统和测试平台
项目组提出了一种如图 12所示的光电混合互连FPGA原型系统结构,通过调用光模块搭建四块FPGA芯片间的光信道,以模拟TSV技术,构建三维光电混合互连原型系统。簇内电通信采用单片FPGA进行系统验证,而簇间光通信通过片外光器件模拟片上光互连系统。基于BEE4开发板,提出了如图 13所示的基于多片FPGA的视频处理算法的验证方法,可以在任意两片芯片上分别进行发送逻辑验证和接收逻辑验证,为视频处理算法的多芯片原型系统构建提供了思路。
图 12 光电混合互连FPGA原型系统结构图
图 13 HEVC算法的多片FPGA验证方法
(3) FPGA验证系统和MPW样片流片
以分辨率176×144的标准测试序列akiyo_qcif_176×144.yuv为例进行测试,通过上位机将不同算法的配置信息以及测试序列下发到芯片中去,启动阵列处理器进行工作,将计算结果进行回收至上位机,作为下一个算法的输入数据,然后重新对芯片进行配置,从而实现不同视频算法在可重构视频阵列处理器芯片上的编码计算过程,基于光互连的多片FPGA的原型验证系统,能够正确完成HEVC编码实现。完成了MPW流片的前期基础,已经交付生产,如图 14所示的验证方法和过程为阵列处理器芯片验证提供了参考依据。
图 14 可重构视频阵列处理器芯片验证流程图
(4) 典型三维视频算法的并行化程序
针对视频编码算法中基于深度图视点合成失真值计算SVDC算法,提出一种混合粒度的SVDC算法并行化方法。在任务级粒度上,将其算法过程分成初始化、重渲染和失真值计算三个并行部分;在指令级,将像素点内部计算指令进行了流水并行。
针对三维视频领域应用中的循环结构,提出一种基于代码重排的程序并行加速方法。在该方法中,通过程序剖析技术,构建关键依赖数据集和数据依赖图,并基于该依赖图,通过引入代码重排技术,消除某些不必要的数据依赖,从而减少在并行执行中的通信开销,提升并行执行性能。实验证明,使用代码重排方法后,程序并行执行可获得10.6%的性能提升。
针对现有映射方法中分数像素插值计算的硬件控制难度大,硬件实现效率低的问题,从软硬件协同设计角度出发,根据并行的不同层次,提出一种基于体系结构和编译系统协同的并行加速方法,针对显式需要交互的数据,采用深度优先贪婪搜索算法对插值信息的处理过程进行任务重新划分方法,通过共享内存方法实现簇间的数据交互,能够将不同任务映射到不同的PE簇上,减少关键数据依赖的影响,加速程序并行执行。