基于安全强化学习算法的电动汽车充电调度策略

潘恒欣; 贾润达; 张树磊

doi:10.12068/j.issn.1005-3026.2025.20230183

东北大学学报(自然科学版) ›› 2025, Vol. 46 ›› Issue (05) : 1 -9. DOI: 10.12068/j.issn.1005-3026.2025.20230183

信息与控制

基于安全强化学习算法的电动汽车充电调度策略

潘恒欣 ¹ ,
贾润达 ¹^,² ,
张树磊 ¹

作者信息 +

Electric Vehicle Charging Scheduling Strategy Based on Safe Reinforcement Learning Algorithm

Author information +

文章历史 +

PDF (2482K)

摘要

随着电动汽车数量的增加，强化学习在电动汽车充电调度中面临更多挑战，尤其是大规模应用带来的不确定性和维度灾难问题.针对上述问题，构建了一个居民区微电网模型，综合考虑电动汽车入网模式及其多种非线性充电模型.将充电调度问题建模为一个约束马尔可夫决策过程，并采用无模型的强化学习框架处理不确定性.针对维度灾难问题，设计了一种充放电策略，通过将电动汽车根据状态划分为不同集合，并由智能体向集合发送控制信号，从而减少动作空间维度.随后，利用基于拉格朗日约束的深度确定性策略梯度算法求解充电调度问题，同时引入安全过滤器以确保不违反硬性约束.数值仿真验证了该策略的有效性.

Abstract

As the number of electric vehicles （EVs） increases， reinforcement learning （RL） in EV charging scheduling faces challenges， particularly uncertainties and the curse of dimensionality from large‑scale applications. A microgrid model for residential areas， considering the vehicle‑to‑grid （V2G） mode and various nonlinear charging models is developed. The problem is formulated as a constrained Markov decision process （CMDP）， with a model‑free RL framework to handle uncertainties. To address the curse of dimensionality， a strategy is designed where EVs are grouped by states， and agents send control signals to these sets， thus reducing the dimensionality of the action space. A Lagrangian deep deterministic policy gradient （LDDPG） algorithm is employed to solve the charging scheduling problem， with a safety filter ensuring constraint compliance. Numerical simulations validate the strategy’s effectiveness.

Graphical abstract

关键词

电动汽车 / 充电调度 / 安全强化学习 / 电动汽车入网模式 / 非线性充电

Key words

electric vehicle / charging scheduling / safe reinforcement learning / V2G mode / nonlinear charging

引用本文

引用格式 ▾

潘恒欣,贾润达,张树磊. 基于安全强化学习算法的电动汽车充电调度策略[J]. 东北大学学报(自然科学版), 2025, 46(05): 1-9 DOI:10.12068/j.issn.1005-3026.2025.20230183

登录浏览全文

4963

注册一个新账户忘记密码

近年来，温室气体排放问题严重，阻碍了减缓全球变暖的目标^［1］.为了应对这一问题，清洁能源得到广泛使用，推动了电动汽车的普及^［2］.除了提供基本的充电服务外，一些充电站还提供电动汽车入网（V2G）模式，使用户可以在车辆闲置时将电量出售给电网盈利^［3-4］，同时降低了电网负荷^［5］，因此电动汽车市场份额不断扩大^［6］.然而，随着电动汽车数量的增加，电动汽车充电管理面临更多挑战.

在电动汽车充电调度问题中，大规模充电带来了不确定性问题.电动汽车充电调度问题存在供给侧和需求侧的不确定性因素^［7］，其中供给侧主要涉及光伏发电系统和V2G模式带来的不确定性，而需求侧则与居民负载需求、电动汽车到达与离开时间的不确定性相关.目前，解决不确定性的方法主要分为两部分：一是假设预先了解不确定性；二是通过智能体与环境的交互来捕捉不确定性.例如，Luo等^［8］假设未来随机事件的分布已知，并基于此构建了马尔可夫决策过程（Markov decision process，MDP）以提出自己的算法^［8］.然而，准确估计不确定性的实际分布仍面临许多困难.近年来，许多学者已将强化学习方法应用于电动汽车充电调度，以优化充电策略.强化学习（reinforcement learning，RL）是机器学习的一个分支，通过与环境交互来获得最佳行为策略.Kalashnikov等^［9］研究了大规模集体机器人学习系统如何同时获取一系列行为，开发了一个可扩展且可泛化的多任务深度强化学习算法^［9］.基于上述讨论，本文使用强化学习方法来处理居民区微电网中的不确定性问题.

随着电动汽车的普及，强化学习在电动汽车充电调度中面临着更多挑战.电动汽车数量的增加导致状态和动作空间变得庞大，给强化学习带来了维数灾难问题.为了解决这个问题，Huang等^［10］在基于事件的优化框架内重新制定了其提出的模型，并提出了一种基于随机参数事件的控制策略.然而，该研究未考虑V2G模式的影响，而引入V2G模式将增加问题的复杂性^［10］.因此，对于该主题需进一步研究和探索.

为了解决居民区大规模集中充电面临的难题，本文提出了一种基于强化学习的充电策略，构建了一个包含光伏发电系统、蓄电池、居民负载和大规模集中充电站的居民区微电网模型，并考虑了V2G模式以及多种类型电动汽车的非线性充电模型.相较于其他相关研究，本文所构建的模型更加全面.本文将充电问题建模为一个约束马尔可夫决策过程，并应用无模型的强化学习方法来求解，有效地解决了微电网中供需不确定性的问题.此外，本文还将充电站内的电动汽车按状态分成不同的集合，通过智能体给集合发送控制信号，并提出一种充放电策略，有效解决了大规模电动汽车数量所带来的维数灾难问题.

1 居民区微电网系统模型

1.1 系统描述

本文研究了包含光伏发电、蓄电池和多个充电桩的居民区微电网模型，同时综合考虑居民负载用电的影响.为缓解电网压力并实现削峰填谷^[11-12]，系统引入了V2G服务，使电动汽车用户在电价高时可向电网售电以获取收益.

实际电动汽车充电过程中，通常采用两阶段充电方案.考虑到实际情况，本文采用非线性的电池充电模型，并按照Fan等^［13］的研究，采用如下公式表述：

Δ t 1 = E c - E i n i P m a x, E i n i < E c; 0,

（1）

Δ t 2 = 1 a l n (b - a E c b - a E r), E i n i > E c; 0,

（2）

其中：

E c

表示电池负荷的阈值，本文定义为电池最大电荷量的75%；

E i n i

代表电动汽车到达集中充电站时的初始电荷量；

E r

代表电动汽车需求电量，在电动汽车离开之前必须得到满足.根据式（1）和式（2），

Δ t 1

和

Δ t 2

分别是线性充电阶段和非线性充电阶段的充电时间，总的充电时间

t c = Δ t 1 + Δ t 2

P m a x

是电动汽车最大额定功率，在恒流充电时，它是一个不变量；而当

E i n i > E c

时，充电功率则成为一个变量.

a

和

b

是由电车的最大容量和额定充电功率决定的常数.例如，本文将

T y p e 3

型电动汽车的能量和功率变化曲线在图1中描绘出来.

本文假设电动汽车在接受V2G服务之前必须满足最低电量阈值

E d

，如果电池电量低于

E d

，或者电动汽车的电池电量降至

E d

以下时，充电站将不提供V2G服务.电动汽车放电时间表示如下：

t d = E i n i - E d P m a x, E i n i > E d .

（3）

本文采用的阶梯电价模型如图2所示.该模型采用峰谷电价，旨在满足用户需求的基础上最大化运营利润.运营利润的来源主要有4个方面：①电动汽车充电费用的差额；②在V2G模式下获取的电动汽车放电能量费用的差额；③在用户需求和负载需求均得到满足的情况下，向电网出售电量获得的收入；④出售蓄电池储存能量获取的利润.

本文将充电调度问题建模为约束马尔可夫决策过程（CMDP），并采用强化学习方法进行求解.

1.2 问题描述

本文的优化目标是在满足用户需求的基础上，最大化运营商的利润.因此，本文的目标利润可以表示为

P r t = E n e t t p g r i d t + E c h a t p s e l l t - E d i s t p b u y t + E L O A D t p g r i d t .

（4）

其中：

E n e t t

是充电站卖给电网的电量与从电网购买的电量之差，即

E n e t t = E s e l l t - E b u y t

，当充电站向电网购买电量超过卖给电网的电量时，该项为负值；

p g r i d t

，

p s e l l t

，

p b u y t

分别代表

t

时刻电网电价、卖给车主的电价以及从车主购电的电价；

E c h a t

是在

t

时刻所属执行周期内充电站内电动汽车充电量；

E d i s t

是在

t

时刻的执行周期内充电站内电动汽车放电总量；

E L O A D t

代表居民区负载消耗电量.

本文中的优化问题需要满足以下约束条件：

0 ≤ E B E S ≤ E B E S ¯,

（5）

0 ≤ P c h a r g e ≤ P m a x,

（6）

0 ≤ P d i s c h a r g e ≤ P m a x,

（7）

E n e t t + E P V t = E c h a t - E d i s t + E L O A D t + E B E S t .

（8）

约束（5）是蓄电池储能上下限的约束.约束（6）和（7）表示电动汽车充放电的功率都不能超过电动汽车的额定功率.约束（8）是居民区微电网的能量平衡约束，

E P V t

表示光伏发电量，

E B E S t

表示蓄电池的充放电量（充电为正，放电为负）.

1.3 约束马尔可夫决策过程

本文将居民区集中充电站的电动汽车充电调度问题建模成CMDP.考虑到居民区用户的生活习惯和规律，本文以24 h为一个优化周期，起止时间为上午9：00至第二天上午9：00.此外，每15 min为一次智能体的执行周期，记为

Δ t

，每个执行周期的开始被视为智能体的决策点.本文将探讨CMDP的系统状态、动作、转移函数、约束以及奖励.

1）系统状态：本文假设在某一时刻

t

，居民区负载需求和光伏发电的输出功率在

Δ t

时间段内是恒定的.因此，光伏发电量

E P V t

和负载需求电量

E L O A D t

在

Δ t

内也是恒定的.同时，蓄电池的储电状态

E B E S t

也被视为系统的一个状态变量.对于集中充电站内的

n

个充电桩，

n ∈ 1,2, …, N

，令

d n, t r e s

和

p n, t r e s

分别表示充电桩对应电动汽车的剩余需求和剩余停车时间.此外，本文将当前时刻

t

作为系统状态之一，并且智能体需要获取阶梯电价信息以获取最大利润.因此，

t

时刻电网电价

P g r i d t

，电动汽车充电电价

P s e l l t

，V2G服务从车主购电的电价

P b u y t

也被视为系统的状态变量.综上，本文的系统状态可以描述为

S t = (t, E P V t, E L O A D t, E B E S t, d 1, t r e s, …, d N, t r e s,

p 1, t r e s, …, p N, t r e s, P g r i d t, P s e l l t, P b u y t)

2）动作：基于给出的状态

S t

，以及式（8）给出的能量平衡约束，系统的动作可以表示如下：

A t = (a G t, a B E S t, a 1 t, …, a N t)

.其中，

a B E S t

代表蓄电池的充放电动作，

a i t

表示第

i

个充电桩连接电动汽车的充放电动作，

a G t

表示智能体向电网的购电动作.

3）状态转移：系统状态从

S t

转换到

S t + 1

的过程，不仅由动作

A t

决定，还会受到

t + 1

时刻进入充电站的车辆、光伏发电输出以及居民负载的影响.首先，蓄电池的状态转移由蓄电池充放电动作决定：

E B E S t + 1 = E B E S t + a B E S t .

（9）

而第

i

个充电桩的剩余需求

d i, t r e s

和剩余充电时间

p i, t r e s

的状态变化会受到

t + 1

时刻进入充电站的车辆影响.这是因为，如果

t

时刻的第

i

辆车的充电需求全部满足，即

d i, t r e s = 0

且

p i, t r e s ≥ Δ t

，那么这辆车仍然会占用这个充电桩，在

t + 1

时刻这个充电桩的状态

d i, t + 1 r e s = 0

且

p i, t + 1 r e s = p i, t r e s - Δ t

.还有一种情况是，当

t

时刻的第

i

辆电动汽车的

p i, t r e s < Δ t

，而在

t + 1

时刻没有新的电动汽车进入充电站，或者没有新进站的电动汽车与这辆电动汽车对应的充电桩连接，那么这个充电桩的状态

d i, t + 1 r e s

和

p i, t + 1 r e s

都将置零.否则，

d i, t + 1 r e s

和

p i, t + 1 r e s

都会与新的电动汽车的剩余需求和剩余停车时间对应.那么，

d i, t + 1 r e s

和

p i, t + 1 r e s

的状态转移函数如下：

d n, t + 1 r e s = d n, t r e s - a n t p n, t r e s > Δ t; 0 或 d n, t + 1 t p n, t r e s ≤ Δ t;

（10）

p n, t + 1 r e s = p n, t r e s - Δ t p n, t r e s > Δ t; 0 或 p n, t + 1 r e s p n, t r e s ≤ Δ t .

（11）

4）约束：假设充电桩所提供的最大充放电功率能够满足3种类型电动汽车的最大充放电功率需求，并且充电站在一个执行周期内可以满足所有电动汽车的最大总充放电功率需求.为了保证电动汽车在放电之后仍然能够满足充电需求，需要对充放电动作进行约束：

∑ t n a t n a + p n, t r e s a n, t n a t z n, t n a c ≥ d n, t r e s - S o C n, t i n i + ∑ t n a t n a + p n, t r e s a n, t n a t z n, t n a d .

（12）

其中：

t n a

表示给第

n

辆电动汽车执行动作的时刻

t

，当

a n, t n a t

为正时，表示正在充电，充电标志

z n, t n a c = 1

，否则为0；当

a n, t n a t

为负时，表示正在放电，放电标志

z n, t n a d = - 1

，否则为0.

S o C n, t i n i

表示第

n

辆电动汽车的初始电量.约束（12）保证了每辆电动汽车都能够在放电之后再充到所需求的电量.此外，蓄电池能量的上下限约束如式（5）所示.并且，蓄电池的充放电动作

a B E S t

也需要遵守约束：

- a B E S t ¯ ≤ a B E S t ≤ a B E S t ¯ .

（13）

5）奖励：为了实现集中充电站的运营目标，需要在设置奖励函数时进行精心规划.本文的优化目标是在满足用户需求的基础上最大化集中充电站的利润，具体见式（4）.因此，本文将奖励函数设定如下：

R t (A t, S t) = 0 t < T; ∑ t = 1 T P r t t = T .

（14）

根据以上讨论，本文的充电优化调度问题可以描述为如下优化问题：

m a x π E π ∑ t = 1 T γ t - 1 R t S t = s, A t = a . s . t . 式 (5) ~ 式 (8), 式 (12), 式 (13) .

（15）

其中：

γ

是折扣因子；

π

表示控制策略.优化目标可以描述为找到一个最优的策略

π

，使得目标函数最大.

2 电动汽车所属集合与充放电策略的设计

2.1 电动汽车所属集合的设计

居民区微电网系统中，供需两侧均存在光伏发电功率、居民负载需求及电动汽车到达、离开时间等不确定性.针对这一问题，本文采用无模型强化学习方法解决充电调度.然而，大规模集中充电站的状态与动作空间庞大，增加了强化学习训练的复杂性.为克服维度灾难，本文提出了一种降低动作空间维度的充放电策略.

基于本文采用的阶梯电价模型，充电桩内的电动汽车被分成4个不同的集合：

C t

，

D t

，

W t

和

I t

.电动汽车所属集合的确定方式如下：

C t

代表接受充电的车辆集合.如果进站的电动汽车不接受V2G放电服务，或者不愿意等待进入下一个V2G时刻进行放电操作，那么这辆电动汽车就准备进入

C t

，表示为正在集合

C t C A N D

中.在

C t

这个集合内的电动汽车将只接受充电服务，直到需求被满足.确定

C t

集合的方式详见算法1.

算法1 确定

C t

集合

1.获得

C t C A N D

，接受V2G服务放电完成的车辆集合

D t f V 2 G C A N D

；

2.对

C t C A N D

内电动汽车执行：

3. 用公式

t c = f t c (S o C n, t, d n, t r e s)

计算

C t C A N D

内电动汽车充到需求电量所用时间；

4. 当

t c > p n, t r e s

时执行：

5. 将该电动汽车放入

R C t

；

6.将

C t C A N D

集合与接受V2G服务放电完成的车辆集合

D t f V 2 G C A N D

合并；

7.将合并后的集合中属于

R C t

的电动汽车去除，组成的新集合即为

C t

集合.

f t c (S o C n, t, d n, t r e s)

表示从电量状态

S o C n, t

充电到需求电量所用的时间，

S o C n, t

代表第

n

辆电动汽车在t时刻的电量.

R C t

代表不允许充电集合，在这个集合内的电动汽车将不被允许接受充电服务.

D t

是放电车辆的集合，其中的电动汽车接受V2G服务并出售储存电量以获取利润.为减少电池充放电次数并延长电池寿命，本文采用先放电再充电的策略，并且在完成放电后不再允许电动汽车接受V2G服务.本文将放电容许阈值

E d

设定为

30 % E V m a x

，只有当电动汽车进站时电量超过这个阈值，充电站才会提供V2G服务.确定

D t

集合的方式详见算法2.

算法2 确定

D t

集合

1.获得接受V2G服务的候选电动汽车集合

D t C A N D

，及

W t

内到达V2G时刻的电动汽车集合

W t f V 2 G C A N D

；

2. 对

D t C A N D

内电动汽车执行：

3. 当

S o C n, t < 30 % E V n, m a x

时执行：

4. 将该电动汽车放入

R D t

；

5. 通过公式

t d = f t d (S o C n, t, 25 % E V n, m a x)

计算放电到

25 % E V m a x

的时间

t d

；

6. 计算从

25 % E V m a x

充电到需求电量所用的时间

t c

；

7. 当

t d + t c > p n, t r e s

时执行：

8. 将该电动汽车放入

R D t

；

9. 将

D t C A N D

集合与

W t f V 2 G C A N D

集合合并；

10.将合并后的集合中属于

R D t

的电动汽车去除，组成的新集合即为

D t

集合.

f t d (S o C n, t, 25 % E V n, m a x)

是计算从

S o C n, t

放电到

25 % E V m a x

电量经过的时间.

R D t

是不允许其接受V2G服务的电动汽车组成的集合.

W t

是等待进入

D t'

的电动汽车集合，其中

t' > t

，指的是下一个V2G时段.本文将

9 : 00 - 11 : 30

，

14 : 00 - 16 : 30

，

19 : 00 - 21 : 00

和

21 : 00 - 23 : 00

这些时间段定义为V2G时段，因为这些时间段的下一个时间段阶梯电价相对更低.确定

W t

集合的方式详见算法3.

算法3 确定

W t

集合

1.获得等待V2G时刻的候选电动汽车集合

W t C A N D

；

2. 对

W t C A N D

内电动汽车执行：

3. 当

S o C n, t < 30 % E V n, m a x

时执行：

4. 将该电动汽车放入

R W t

；

5. 当

t f V 2 G - t > p n, t r e s

时执行：

6. 将该电动汽车放入

R W t

；

7. 将合并后的集合中属于

R W t

的电动汽车去除，组成的新集合即为

W t

集合.

R W t

代表被拒绝进入

W t

集合的电动汽车组成的集合，

t f V 2 G

表示当前时刻

t

之后的第一个V2G时段的开始时刻.

I t

代表已经充电完成的电动汽车集合，在这个集合内的车辆将不进行任何操作，在离开时间到达后自动驶出充电站.

需要指出的是，在任意时刻

t

，不会同时存在

W t

和

D t

，当智能体到达V2G时刻时，自动将

W t

中的电动汽车移入

D t

.通过这种集合划分，本文无需关注每辆电动汽车的充电过程，而是向集合发出指令信号，并按照本文所提出的充电策略对充电电动汽车进行电量分配，从而减小行动空间的维度.

2.2 充电调度策略

放电策略：设计放电策略目的是找到最优的顺序排列好

D t

内的电动汽车，确保每辆车在离开时间到达之前全部满足需求，在此基础上最大化收益

P r t

.本文的放电策略与确定

D t

集合的策略一致.根据图2，在一个V2G时段内电价是恒定的，因此接受V2G服务放电的电动汽车越多，运营商的收益就越多.本文假设充电站允许的最大放电功率足够大，因此在V2G时刻，

D t

集合内满足条件的所有电动汽车均可进行放电.因此，一个执行周期内的最大放电量定义为

ψ t = ∑ i ∈ D t m i n (f d (S o C i ∈ D t, Δ t), S o C i ∈ D t - 0.25 E V i ∈ D t, m a x)

.其中，

f d (x, y)

是计算在

x

的

S o C

状态下，经过

Δ t

时间所放出的电量.而

S o C i ∈ D t

是指

D t

集合内第

i

辆电动汽车的当前电量.在此，假设充电站允许的最大放电量能够满足本文提出的

ψ t

，这样可以简化问题复杂度.

充电策略：设计目标是找到一种最佳的充电顺序，以给

C t

内的电动汽车进行充电.由于居民区的用户通常在晚上

18 : 00

之后进站，并且他们的离开时间通常在第二天早上

9 : 00

之前，充电站有充足的时间来安排充电计划.因此，在电动汽车进站时不需要立即按最大功率进行充电.相反，充电站可以利用夜间阶梯电价谷底时间进行充电，以实现削峰填谷的效果.因此，需要确定每个执行周期的最小充电量

β t

，确保充电站按照

β t

充电也能够最终满足所有电动汽车的需求.最小充电量的计算方式是，直到电动汽车离开之前的数个执行周期内以该充电量充电，恰好能够满足需求.此外，还确定了每个执行周期的最大充电量

ζ t

，定义为

ζ t = ∑ i ∈ C t m i n (f c (S o C i, t, Δ t), d i ∈ C t, t r e s - S o C i, t)

.其中，

f c (x, y)

是计算从

x

状态的电量开始，充电

Δ t

时间后的电量，

d i ∈ C t, t r e s

表示充电集合

C t

内第

i

辆电动汽车的剩余需求电量.为了简化研究复杂度，本文假设充电站允许的最大总充电量满足

ζ t

.有了

β t

和

ζ t

后，就只需要确保一个执行周期内的总充电量

e t

满足：

β t ≤ e t ≤ ζ t

.（16）

本文的充电策略如算法4所示.

算法4 充电策略

1. 确定按

β t

充电的电动汽车集合

M t

，充电动作

e t

，

β t

；

2. 给

M t

内的电动汽车分配

β t

执行充电；

3. 按

e t = e t - β t

更新

e t

；

4. 将除

M t

以外的

C t

内的电动汽车组成集合

C M t

，确定

C M t

内每辆电动汽车离开时间

p C M, t r e s

；

5. 按

p C M, t r e s

从小到大顺序排列

C M t

内的电动汽车；

6. 当

e t > 0

时执行：

7. 对

C M t

内第

i

辆电动汽车执行：

8. 充电1 min，计算充电后电量

S o C C M, t i

；

9. 计算

C t

内所有电动汽车电量

S o C C t, t + Δ t i

；

10.计算

C t

内所有电动汽车剩余需求

d C t, t + Δ t r e s

；

11.计算所有电动汽车剩余停车时间

p C t, t + Δ t r e s

根据以上讨论，重新描述MDP.本工作的系统状态将重新定义为

S R t = (t, E P V t, E L O A D t, E B E S t,

β t, ζ t, ψ t, P g r i d t, P s e l l t, P b u y t)

，而动作重新定义为

A R t = (a B E S t, e t)

.因此，优化问题（15）可以重新写为

m a x π E π ∑ t = 1 T γ t - 1 R t S R t = S, A R t = A s . t . 式 (5) ~ 式 (8), 式 (12), 式 (16) . .

（17）

优化问题（18）与问题（16）相比，决策变量数目大幅减少，在状态空间和动作空间上的维度显著降低，这为本文研究提供了便利.

3 安全强化学习方法

3.1 基于充电策略的Lagrangian-DDPG算法

深度确定性策略梯度（deep deterministic policy gradient，DDPG）是一种适用于解决连续动作空间强化学习问题的算法.DDPG算法结合了深度神经网络和确定性策略梯度方法，能够有效训练智能体.

DDPG算法采用了Actor-Critic架构，其中包括4个主要组件：Actor网络、Actor目标网络、Critic网络和Critic目标网络 .Actor网络接收当前状态作为输入，并输出一个确定性的动作值. Actor目标网络用于计算目标Q值，以便进行更新. Critic网络评估Actor选择的动作的Q值（即动作-值函数）. Critic目标网络用于计算目标Q值，以便进行Critic网络的更新.这种四个网络结构使得DDPG算法能够有效处理连续动作空间中的强化学习问题. DDPG算法的目标函数可以表示为

J = E s t ~ E [Q (s t, π (s t | θ) | ω)] .

（18）

Lagrangian-DDPG （LDDPG）算法是DDPG算法的变体，通过引入拉格朗日乘子，可以将不等式约束问题转换为等式约束问题，并将问题纳入目标函数中进行优化.LDDPG算法的目标函数可以表示为

J = E s t ~ E [Q (s t, π (s t | θ) | ω) - β c (s t, a t)] .

（19）

与DDPG算法不同的是，LDDPG算法中的

β

是拉格朗日系数，可以用来调节约束条件的权重大小.

c (s t, a t)

表示约束条件. LDDPG算法相对于DDPG算法在鲁棒性、收敛速度和可调节性等方面都具有优势，并且可以解决广泛的连续动作控制问题.

需要指出，在引入拉格朗日乘子之后，式（14）所定义的奖励函数需要重新描述.这是因为在式（14）定义奖励时涉及到稀疏奖励的概念.此外，考虑到本文给出的约束条件以及采用的LDDPG算法，有必要将惩罚项整合起来，并通过拉格朗日乘子的形式添加到奖励函数中.本文的惩罚项

c (s t, a t)

定义为

c (s t, a t) = m a x 0, - E B E S - a B E S + m a x 0, a B E S + E B E S - E B E S ¯ + m a x 0, β t - e t + m a x 0, e t - ζ t + m a x 0, n - 95 E B E S .

（20）

其中：前2项是对蓄电池能量超过上下限的惩罚；第3，4项是对总充电量违背约束（16）的惩罚；最后一项是对蓄电池在次日9点优化周期结束前未置零的惩罚，

n

是统计执行周期次数的计数值.根据以上讨论，本文重新定义奖励函数如下：

R t (A t, S t) =

υ (P r t - μ) - β c (s t, a t), t < T; υ (P r t - μ) + ω ∑ t = 1 T P r t - β c (s t, a t), t = T .

（21）

其中：

υ

，

μ

，

ω

是根据先验知识给定的超参数.

本文将阐述设定奖励函数的合理性：首先，每个时间步的奖励应该在一个合理的正负区间范围内，这可以通过超参数

υ

和

μ

来解决.其次，本文优化目标是在固定周期内累计利润，因此使用超参数

ω

来对每个时间步的累计奖励进行结算，以免算法过度追求短期利益.最后，引入拉格朗日惩罚项

β c (s t, a t)

对奖励增加进行约束，以减少算法违反惩罚项的情况.在本文中，将拉格朗日系数

β

设为定值.

3.2 安全强化学习框架的引入

本文已将优化问题建模成CMDP，但仍有可能无法满足电动汽车的需求.因此，本文引入了基于规则的安全过滤器，以确保充电站在任何情况下都能满足电动汽车的需求.

安全过滤器算法：针对电动汽车充电动作

e t

，进行判断：如果

e t < β t

，那么令

e t = β t

；如果

e t > ζ t

，那么令

e t = ζ t

.类似地，针对蓄电池充放电动作

a B E S t

，如果

a B E S t + E B E S t > E B E S ¯

，那么令

a B E S t = E B E S ¯ - E B E S t

；如果

a B E S t + E B E S t < 0

，那么令

a B E S t = - E B E S t

.其他情况则维持原本动作.

智能体需要先满足安全的硬约束才能获得奖励，因此，本文采用安全过滤器修改智能体的行动以确保其符合硬性约束，尽管算法的性能可能会受到一定影响.然而，在算法中引入拉格朗日惩罚项使得算法在探索过程中也会考虑安全的硬约束.随着训练的进行，智能体与安全过滤器的要求逐渐变得一致.最终，算法在性能与安全约束之间达到平衡.

4 实验对比

4.1 微电网的搭建

本文构建了包含集中充电站、光伏发电系统、蓄电池设备和居民负载的居民区微电网系统.基于中国东南地区气象数据，天气分为晴、多云、阴和雨雪4类，并确定各自概率^[14].假设光伏发电功率及居民负载在每小时内保持恒定，分别将不同天气下的发电量和高斯分布的负载需求量列入表1和表2.

3种类型电动汽车相应的参数见表3.确定了3种车型的充电曲线，如图3所示.

考虑了具有100个充电桩的集中充电站.本文将蓄电池的最大容量设置为600 kWh，最大充放电功率为200 kW，因此

a B E S t

最大为50 kWh.需要指出的是，蓄电池的储能也是获取利润的关键一环，蓄电池初始状态会影响运营收益.为了便于计算收益，本文在每个优化周期的最后将蓄电池的状态置0，并将蓄电池状态与0的差值计入利润中.

4.2 算法对比

本文比较了3种算法在搭建环境下的表现，包括LDDPG算法、LSAC（Lagrangian‑soft actor‐critic）算法和CPO（constrained policy optimization）算法.并且增加了2种常规算法进行对比：第1种是最大充电模式，即充电站以最大充电量给站内的待充电车辆执行充电操作；第2种是最小充电模式，即充电站以能保证所有电动汽车满足需求的最小充电量

β t

执行充电操作.

4.3 结果分析

对所使用的算法进行了600次与环境交互的训练，得到的累计奖励对比如图4所示.可以看出，所有算法均达到了收敛.为进一步探究不同算法的性能表现，将它们在运营商利润和惩罚方面的表现示于图5和图6中.图5显示，LDDPG算法得到的运营商利润要高于CPO和LSAC算法.图6比较了3种算法在违反约束条件时受到的惩罚.数据显示，相较于LSAC算法和CPO算法，LDDPG算法所获惩罚更小.这是由于LSAC算法对奖励函数更加敏感，也体现出LDDPG算法在奖励函数处理方面的优势.

为了进一步分析本文算法的性能，将所用到的强化学习算法与上文给出的2种常规算法的利润进行比较.比较了不同方法7 d的收益情况，如图7所示.其中，Mode1表示在每个执行周期以最大充电量

ζ t

充电，而Mode2表示在每个执行周期内以最小充电量

β t

充电.需要指出的是，CPO算法在利润和违反约束惩罚这两方面的表现不佳.因此，在进一步的对比中，将CPO算法排除在外.从图7a可以看出，LDDPG算法得到的利润最高.而从图7b中可以观察到，与Mode1相比，LDDPG算法提高了约

40 %

的利润，而LSAC算法仅提高了约

20 %

的利润.

5 结语

本文提出了一种能够解决居民区大规模集中充电困难的基于强化学习的充电策略.构建了一个包含光伏发电系统、蓄电池、居民负载以及大规模集中充电站的居民区微电网模型，同时考虑了V2G模式.相较于其他研究，所构建的模型考虑得更加全面.将充电优化问题建模为CMDP，采用无模型的强化学习方法求解.将充电站内的电动汽车按状态划分为不同的集合，提出一个充放电策略，有效解决了大规模电动汽车数量带来的问题，并引入安全过滤器来保证不违背硬约束.与其他算法对比结果表明本文提出的策略性能更优.

参考文献

原文顺序 | 出版日期 | 本文引用

[1]	Zheng Y C， Niu S Y， Shang Y T，et al.Integrating plug‑in electric vehicles into power grids：a comprehensive review on power interaction mode，scheduling methodology and mathematical foundation［J］.Renewable & Sustainable Energy Reviews，2019，112：424-439.

[2]	Wang B， Zhao D B， Dehghanian P，et al.Aggregated electric vehicle load modeling in large‑scale electric power systems［J］.IEEE Transactions on Industry Applications，2020，56（5）：5796-5810.

[3]	Kempton W， Letendre S E.Electric vehicles as a new power source for electric utilities［J］.Transportation Research Part D：Transport and Environment，1997，2（3）：157-175.

[4]	Islam S， Iqbal A， Marzband M，et al.State‑of‑the‑art vehicle‑to‑everything mode of operation of electric vehicles and its future perspectives［J］.Renewable and Sustainable Energy Reviews，2022，166：112574.

[5]	Zhou C Q， Xiang Y， Huang Y，et al.Economic analysis of auxiliary service by V2G：city comparison cases［J］.Energy Reports，2020，6：509-514.

[6]	Rachid A， Fadil H E， Gaouzi K，et al.Electric vehicle charging systems：comprehensive review［J］.Energies，2022，16（1）：255.

[7]	Wang Q L， Liu X， Du J，et al.Smart charging for electric vehicles：a survey from the algorithmic perspective［J］.IEEE Communications Surveys & Tutorials，2016，18（2）：1500-1517.

[8]	Luo C， Huang Y F， Gupta V.Stochastic dynamic pricing for EV charging stations with renewable integration and energy storage［J］.IEEE Transactions on Smart Grid，2018，9（2）：1494-1505.

[9]	Kalashnikov D， Varley J， Chebotar Y，et al.Scaling up multi‑task robotic reinforcement learning［C］//Proceedings of the 5th Conference on Robot Learning.London，2022：557-575.

[10]	Huang Q L， Yang L， Hou C，et al.Event-based EV charging scheduling in a microgrid of buildings［J］.IEEE Transactions on Transportation Electrification，2023，9（1）：1784-1796.

[11]	Wang Y Q， Zhang J， Li L，et al.Research on coordinated charging control strategy load optimization of electric vehicles in residential area［J］.IOP Conference Series：Earth and Environmental Science，2020，510（6）：062030.

[12]	Zhang T Y， Pota H， Chu C C，et al.Real-time renewable energy incentive system for electric vehicles using prioritization and cryptocurrency［J］.Applied Energy，2018，226：582-594.

[13]	Fan P Y， Sainbayar B， Ren S L.Operation analysis of fast charging stations with energy demand control of electric vehicles［J］.IEEE Transactions on Smart Grid，2015，6（4）：1819-1926.

[14]	孙翰墨，申烛，郭宗军，等.不同天气类型对光伏电站理论发电量影响的研究［J］.太阳能，2017（6）：38-42.

[15]	Sun Han‑mo， Shen Zhu， Guo Zong‑jun，et al.Research on the influence of different weather types on the theoretical power generation of photovoltaic power plants［J］.Solar Energy，2017（6）：38-42.