“错峰”访存优化的低功耗卷积神经网络加速器

画芊昊, 李博, 杜宸罡

中北大学学报(自然科学版) ›› 2026, Vol. 47 ›› Issue (02) : 234 -240.

PDF
中北大学学报(自然科学版) ›› 2026, Vol. 47 ›› Issue (02) : 234 -240.

“错峰”访存优化的低功耗卷积神经网络加速器

    画芊昊, 李博, 杜宸罡
作者信息 +

Author information +
文章历史 +
PDF

摘要

卷积神经网络加速器的推理速度受访存带宽和片上存储资源的限制,在RAM资源较少的FPGA平台上很难充分发挥并行计算的优势。针对这一问题,本文提出了一种采用“错峰”计算和总线动态分配的访存优化策略的加速器结构。首先,采用分层计算和乒乓缓存的方式来减少“高峰”时的访存事务。通过设计灵活的DMA模块实现特征和权重访存总线的动态分配以提高“高峰”时的总线带宽。其次,采用固定乘法阵更改数据流的方式复用乘法阵列来最大化DSP的利用率。然后,采用软硬件协同和高度流水化的设计方式,使加速器从底层到顶层的数据流在时间线上形成全流水结构。模块除锁相环和大型RAM外均采用HDL和源语设计,在XCZU3EG平台资源使用率超过80%的情况下可实现300 MHz的高速运行。实验结果表明:MobilenetV2-1.0-256在所提加速结构上实现了125 GOPs的吞吐率,接近访存总线的带宽上限;推理速度为移动端ARM CPU的7.50倍,为高性能CPU的1.21倍;能效比为桌面级GPU的3.5倍;与其他FPGA上的同类型加速器相比,在性能密度和能效比上均有优势。

关键词

FPGA / 硬件加速器 / 卷积神经网络 / 访存优化 / 软硬件协同

Key words

引用本文

引用格式 ▾
画芊昊, 李博, 杜宸罡. “错峰”访存优化的低功耗卷积神经网络加速器[J]. 中北大学学报(自然科学版), 2026, 47(02): 234-240 DOI:

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

0

访问

0

被引

详细

导航
相关文章

AI思维导图

/