基于孪生延迟DDPG强化学习的电-热耦合系统低碳经济调度

陈思畏; 李建军; 邹信迅; 罗旭; 崔希

doi:10.19725/j.cnki.1007-2322.2023.0058

现代电力 ›› 2025, Vol. 42 ›› Issue (02) : 314 -321. DOI: 10.19725/j.cnki.1007-2322.2023.0058

基于孪生延迟DDPG强化学习的电-热耦合系统低碳经济调度

陈思畏, 李建军, 邹信迅, 罗旭, 崔希

作者信息 +

Author information +

文章历史 +

PDF

摘要

对含可再生能源接入的电–热耦合系统，提出一种用于电–热耦合系统低碳经济调度的强化学习方法。首先，建立计及经济性和碳排放的电–热耦合系统低碳经济调度模型；然后，将含可再生能源的电–热耦合系统低碳经济调度过程转化为马尔可夫决策过程(Markov decision process,MDP)，以经济性和碳排放最小为目标，结合惩罚约束机制，设计多目标奖励函数，并基于深度确定性策略梯度(deep deterministic policy gradient,DDPG)的改进算法，采用孪生延迟DDPG算法对强化学习智能体进行交互学习训练。最后，算例分析结果表明，所提方法训练的智能体能够实时响应可再生能源和电/热负荷的不确定性，在线对含可再生能源的电–热耦合系统低碳经济调度优化。