PDF
摘要
针对在资源有限的边缘计算端部署长短时记忆(long short-term memory, LSTM)神经网络遇到的计算效率低、功耗高的问题,提出一种基于脉动阵列架构的分布式计算LSTM加速器设计方案。通过将输入数据分布式存储,从而以减少数据的流动性并降低功耗;通过脉动的方式传递数据,从而减少计算单元的空置率并提高计算效率。在VU13P系列现场可编程门阵列(field programmable gate array, FPGA)的验证结果表明,所设计的LSTM加速器在200 MHz的工作频率下有效算力179.2 GOPS,动态功耗0.343 W,能效比522.4 GOPS/W,相较于当前典型设计,能效比提升34%以上。
关键词
长短时记忆(LSTM)
/
现场可编程门阵列(FPGA)
/
硬件加速器
/
脉动阵列
Key words
基于脉动阵列架构的分布式计算LSTM加速器[J].
重庆邮电大学学报(自然科学版), 2025, 37(05): 741-747 DOI: