“错峰”访存优化的低功耗卷积神经网络加速器

画芊昊; 李博; 杜宸罡

中北大学学报（自然科学版） ›› 2026, Vol. 47 ›› Issue (2) : 234 -240.

画芊昊, 李博, 杜宸罡

作者信息 +

Author information +

文章历史 +

摘要

卷积神经网络加速器的推理速度受访存带宽和片上存储资源的限制，在RAM资源较少的FPGA平台上很难充分发挥并行计算的优势。针对这一问题，本文提出了一种采用“错峰”计算和总线动态分配的访存优化策略的加速器结构。首先，采用分层计算和乒乓缓存的方式来减少“高峰”时的访存事务。通过设计灵活的DMA模块实现特征和权重访存总线的动态分配以提高“高峰”时的总线带宽。其次，采用固定乘法阵更改数据流的方式复用乘法阵列来最大化DSP的利用率。然后，采用软硬件协同和高度流水化的设计方式，使加速器从底层到顶层的数据流在时间线上形成全流水结构。模块除锁相环和大型RAM外均采用HDL和源语设计，在XCZU3EG平台资源使用率超过80%的情况下可实现300 MHz的高速运行。实验结果表明：MobilenetV2-1.0-256在所提加速结构上实现了125 GOPs的吞吐率，接近访存总线的带宽上限；推理速度为移动端ARM CPU的7.50倍，为高性能CPU的1.21倍；能效比为桌面级GPU的3.5倍；与其他FPGA上的同类型加速器相比，在性能密度和能效比上均有优势。