PDF
摘要
近年来,随着互联网技术及其应用的飞速发展,互联网用户和无线终端设备的数量呈指数级增长,导致了能源消耗的急剧增加,在此背景下,如何在保障通信服务质量的同时,提高能源的利用率,成为了研究的重点。通过探讨利用时域注水算法分配资源来提高时延可容忍(delay tolerable, DT)服务的能源效率(energy efficiency, EE)的可能性,将最大化EE的非凸问题转化为最小化传输功率的凸问题,以获得最优解,使用贪婪算法得到传输功率上界。为了捕捉更真实的场景,引入了近似统计动态规划(approximate statistical dynamic programming, ASDP)算法,但其对提高EE的效果有限。为了克服这一限制,提出了3种深度强化学习(deep reinforcement learning, DRL)算法,使用了深度Q网络(deep Q-network, DQN)探究连续信道下离散动作传输策略对传输功率的影响,运用深度确定性策略梯度(deep deterministic policy gradient, DDPG)算法探究连续动作传输策略,以及利用近端策略优化(proximal policy optimization, PPO)算法探究动作分布传输策略,分析二者对传输功率产生的影响。通过综合比较3种算法在不同信噪比环境下的传输功率、中断概率、性能改善百分比的平均值及算法的鲁棒性,可以得出结论,DDPG算法在信噪比为2 dB的环境中,代理性能最佳,证明了DRL算法在提高通信系统EE方面的有效性和潜力。
关键词
能源效率(EE)
/
近似统计动态规划
/
深度强化学习
/
深度Q网络
/
深度确定性策略梯度
/
近端策略优化
Key words
邬伶凤, 朱锐, 曹九霄, 褚鹏, 赵康
时延可容忍业务中的高能效信息传输策略研究[J].
重庆邮电大学学报(自然科学版), 2025, 37(03): 333-345 DOI: