第 1 章 绪论
1.1 课题背景及研究的目的和意义
从最初开始提到片上网络的概念,将芯片中的各个核心之间,引入类似计算机网络的通信网络,核心负责计算,路由模块负责不同核心间的通信,总体上提高了芯片的扩展性并且降低了复杂度[1]。不仅如此,三位片上网络通过不同结构的改变,例如依靠通硅通道的建立来创建主从网络等设计方式从而降低整体功率并提高路由性能[2]。随着技术的进一步发展,将二维的片上网络向三维方向扩展成为了新的研究方向[3]。三维片上网络概念提出的原因很简单,基于核心间通信的芯片性能由于核心频率发展的速度加快[4],导致现有的二维通信网络已经不足以满足核心通信的需求,而路由模块性能的提升所带来的改善有限,因为虽然路由模块的分发与接收能力提高了,但是链路的速度并不能提升,再加上线路的位数有限且为单向通行,经常会导致路由模块由于某个方向的通信包过于密集导致了该处出现拥塞,但是又缺少更多的备选路线的状况[5]。而三维片上网络由于增加了一个维度的通信链路,使得通信拥塞的问题基本被解决了,并且三维片上网络可以更多的利用双向链路从而间接提高片上网络的可靠性[6]。三维片上网络提供了更多的通信维度的同时也通过新的电路设计和芯片结构设计而产生功能更特化的芯片,例如设计 65mW 的包含 100 万个可编程神经突触的神经元的芯片设计,就是通过特殊的电路设计和映射方案来实现的[7]。
但随之而来的是可靠性的问题,三维片上网络通过集成多个原本二维的片上网络,加上垂直的通信信道来完成垂直方向上的核心通讯,以并行处理的方式达到提升整个芯片计算能力的目的。这里要注意的是通常情况下,垂直方向上的链路的负载能力没有二维平面上的链路高,这就意味着三维片上网络的任务分组还是倾向于二维,z 轴方向上的通讯只是辅助的作用,其带来的通信能力的提升并不能简单的按照数学公式进行计算。另外虽然但当工艺制程达到100nm 级以下时,登纳德定律已然失效,即特征尺寸的缩小会使得芯片的功耗密度大幅上升,同时由于材料的导热和散热能力由于成本或是工艺问题并没有随之提高,导致芯片在工作期间非常容易过热,这会加速与芯片温度相关的诸如 NBTI、TDDB 和 EM 等物理失效。
.................................
三维片上网络的故障预测的讨论自有片上网络以来就不断持续,围绕着不同的参数,不同的权重以及不同的偏向性有了一些预测的模型与诊断或者评估算法。这些方法都有各自的优点与缺陷。
通常针对片上网络的相关性能的预测停留于离线预测,这些预测的所选模型从支持向量机回归(SVM)到递归神经网络都有,这些模型通常针对的是片上网络的相关性能例如总体功率和温度,或者是片上网络的相关模块的故障,例如路由模块的硬件和软件故障故障[12]。
1.2.1 三维片上网络预测的研究
截至现今,对三维片上网络的各种因素或者情况的预测的研究相对较少,大多是进行对整体片上网络的性能评估,功耗分析或是通信性能评估。这些性能评估是在一些特定的条件下,评估片上网络的结构性能,在此仅举出论文会涉及到的几种评估方法,例如使用数学分析和仿真环境对片上网络的 mesh 结构 hetorus 结构在三维中的通信性能和面积开销进行评估[13],这种评估方法证明了吞吐量是片上网络性能体现的一个方面;而另一个使用数学方法指出功耗也是片上网络性能的重要指数[37]。
对片上网络的故障进行预测的研究并不理想,主要原因有两点:一是在现有片上网络的性能的环境中,对故障点的预测的时间要求非常高,使得目前绝大多数的预测研究无法满足要求。另一点是目前少有的满足时间要求的预测模型,其准确率并不理想,在没有进一步的预测区域时,通常的预测模型对预测点的正确率不足 70%。
目前常用的片上网络实际使用的预测模型就是基于决策树的时间序列预测,这种预测利用决策树的良好的剪枝策略,引入优化的分裂函数来进行较为稳定的预测[15][16]。
..............................
第 2 章 三维片上网络预测模型
2.1 引言
既然现有的简易的机器学习预测模型无法满足预测的需求,那么就需要研究其他模型应用于这类预测问题的可用性。而最开始我们会确定论文整体所适用的片上网络结构以及所使用的相关变量,之后我们会设计一个学习模型来对这些变量进行学习。这里着重讨论了各类常用神经网络之间的优缺点及我们最后采用的方案说明。
2.1.1 适用的片上网络拓扑结构
在片上网络由二维扩展至三维之后,原有的很多改进的二维片上网络拓扑结构并不能在三维上继续使用。直到目前,流行的三维片上网络的拓扑结构主要为两种,一种是 mesh 结构,即矩阵型结构,该结构最为普遍,制作成本也最为简单。Mesh 拓扑结构中,每个路由模块最多会与 6 个路由模块相连,方向分别为 x,y,z 轴上的 6 个方向的临近路由模块,所以在这种拓扑结构中,每个核心节点的节点度为 6。现在绝大部分的三维片上网络的结构均为 mesh 结构。
另一种是 torus 结构,这种结构相比 mesh 结构多了一个将矩阵两端的节点连接起来的链路,这样使得同一行的节点在不增加节点度的前提下形成一个循环的链路,最终在性能上体现的结果就是这种结构拥有更高的网络吞吐量和更小的延迟,只不过这种结构的可靠性更差,并且生产成本较高,并且功耗也更高。论文所使用的三维片上网络结构就是这两种结构。
............................
2.2 输入值的选择
有很多的因素对一个核心是否产生故障有着影响,而这些因素中还有着相互的逻辑关系和连带关系和时间关系,首先要确定的是有哪些变量和最终核心的故障相关。
在现有研究中讨论最多也是最早开始采用的变量就是温度,这个温度包括了核心的温度和路由模块的温度,这里我们统一为一个核心的温度。目前对温度的评估与预测最准确的是使用 RC 参数来预测三维片上网络的温度,其使用整体电路设计结构来预测整体片上网络的温度[24]。所以温度是我们的一个主要参数。
这里可以看到吞吐量其实代表的就是一个节点的数据包流量,其反应了整个片上网络对于数据包的流通能力,吞吐量越大,说明在同样时间内这个网络节点接收和发送的数据包越多,最大的时候即 Tr=1 时,说明每个时钟周期都有一个包被注入到网络之中。实际运行时片上网络的最大可承受的吞吐量是依照不同的路由算法而确定的,不过对于三维 mesh 和 torus 结构的片上网络中,最大能承受的 Tr 基本都是 0.5-0.6 之间。
.............................
第 3 章 容错路由算法的设计 ..................................... 36
3.1 引言 ...................................... 36
3.2 路由算法的研究现状 ..................................... 36
第 4 章 路由算法实验结果和对比 ...................................... 51
4.1 主要的性能指标....................... 51
4.2 实验结果对比 ...................................... 52
第 4 章 路由算法实验结果和对比
4.1 主要的性能指标
网络平均时延(GAL) 对于一个数据包来说,其从源节点发出注入到网络到其被目的节点所接收的时间称为该数据包的时间延迟。那么网络平均时延就是所有包的时间延迟的平均数。网络平均时延反映了整个片上网络整体的堵塞情况,其越小则整体网络环境越通畅。不过不能排除有偶然的情况导致某些数据包的延迟会很高。通常情况下网络平均时延会随着包注入率的增加和故障率的提高而升高,升高幅度根据不同算法而不同。其定义如下:
............................
结论
论文先通过对三维片上网络可靠性的研究重点进行分析,阅读了大量相关研究成果和方向,重点关注了对于三维片上网络的故障预防和故障对应(容错路由算法)这两种主要的研究方面。
论文首先针对现有三维片上网络故障预测方面研究的不足性,尝试了一些现有的成熟的预测模型并进行了相关实验对比,最终设计了一个预测三维片上网络的节点故障的预测模型,这个模型首先在各个已有模型的基础上尝试使用新型的深度学习模型,LSTM 细胞模型来对常见的三位片上网络的参数对最终三维片上网络故障概率的预测。
在预测结果的基础上,设计了对应的预测区域,并且提供了对应的高可靠性的绕路算法。并且在故障形成后,可以及时形成对应的二维故障面和故障区,并且建立了在故障区内利用失效节点来进行路由的隧道。并且设计了利用这些隧道的路由算法。
论文设计了在三维片上网络中将距离较近的故障点建立二维的故障区的方法,该方法能在尽量减少片上网络性能损耗的前提下形成规则范围的故障区。其次论文在故障区中设计了打通故障区的隧道。并且跟着设计了相应的利用隧道的路由算法。该算法在保证了容错性的基础上在高故障率的情况下也能保证很低的延迟,并且整体功耗较低且在低故障率的三维片上网络中能保证基本处于 100%的到达率。
参考文献(略)