基于安全强化学习算法的电动汽车充电调度策略

潘恒欣 ,  贾润达 ,  张树磊

东北大学学报(自然科学版) ›› 2025, Vol. 46 ›› Issue (05) : 1 -9.

PDF (2425KB)
东北大学学报(自然科学版) ›› 2025, Vol. 46 ›› Issue (05) : 1 -9. DOI: 10.12068/j.issn.1005-3026.2025.20230183
信息与控制

基于安全强化学习算法的电动汽车充电调度策略

作者信息 +

Electric Vehicle Charging Scheduling Strategy Based on Safe Reinforcement Learning Algorithm

Author information +
文章历史 +
PDF (2482K)

摘要

随着电动汽车数量的增加,强化学习在电动汽车充电调度中面临更多挑战,尤其是大规模应用带来的不确定性和维度灾难问题.针对上述问题,构建了一个居民区微电网模型,综合考虑电动汽车入网模式及其多种非线性充电模型.将充电调度问题建模为一个约束马尔可夫决策过程,并采用无模型的强化学习框架处理不确定性.针对维度灾难问题,设计了一种充放电策略,通过将电动汽车根据状态划分为不同集合,并由智能体向集合发送控制信号,从而减少动作空间维度.随后,利用基于拉格朗日约束的深度确定性策略梯度算法求解充电调度问题,同时引入安全过滤器以确保不违反硬性约束.数值仿真验证了该策略的有效性.

Abstract

As the number of electric vehicles (EVs) increases, reinforcement learning (RL) in EV charging scheduling faces challenges, particularly uncertainties and the curse of dimensionality from large‑scale applications. A microgrid model for residential areas, considering the vehicle‑to‑grid (V2G) mode and various nonlinear charging models is developed. The problem is formulated as a constrained Markov decision process (CMDP), with a model‑free RL framework to handle uncertainties. To address the curse of dimensionality, a strategy is designed where EVs are grouped by states, and agents send control signals to these sets, thus reducing the dimensionality of the action space. A Lagrangian deep deterministic policy gradient (LDDPG) algorithm is employed to solve the charging scheduling problem, with a safety filter ensuring constraint compliance. Numerical simulations validate the strategy’s effectiveness.

Graphical abstract

关键词

电动汽车 / 充电调度 / 安全强化学习 / 电动汽车入网模式 / 非线性充电

Key words

electric vehicle / charging scheduling / safe reinforcement learning / V2G mode / nonlinear charging

引用本文

引用格式 ▾
潘恒欣,贾润达,张树磊. 基于安全强化学习算法的电动汽车充电调度策略[J]. 东北大学学报(自然科学版), 2025, 46(05): 1-9 DOI:10.12068/j.issn.1005-3026.2025.20230183

登录浏览全文

4963

注册一个新账户 忘记密码

近年来,温室气体排放问题严重,阻碍了减缓全球变暖的目标1.为了应对这一问题,清洁能源得到广泛使用,推动了电动汽车的普及2.除了提供基本的充电服务外,一些充电站还提供电动汽车入网(V2G)模式,使用户可以在车辆闲置时将电量出售给电网盈利3-4,同时降低了电网负荷5,因此电动汽车市场份额不断扩大6.然而,随着电动汽车数量的增加,电动汽车充电管理面临更多挑战.
在电动汽车充电调度问题中,大规模充电带来了不确定性问题.电动汽车充电调度问题存在供给侧和需求侧的不确定性因素7,其中供给侧主要涉及光伏发电系统和V2G模式带来的不确定性,而需求侧则与居民负载需求、电动汽车到达与离开时间的不确定性相关.目前,解决不确定性的方法主要分为两部分:一是假设预先了解不确定性;二是通过智能体与环境的交互来捕捉不确定性.例如,Luo等8假设未来随机事件的分布已知,并基于此构建了马尔可夫决策过程(Markov decision process,MDP)以提出自己的算法8.然而,准确估计不确定性的实际分布仍面临许多困难.近年来,许多学者已将强化学习方法应用于电动汽车充电调度,以优化充电策略.强化学习(reinforcement learning,RL)是机器学习的一个分支,通过与环境交互来获得最佳行为策略.Kalashnikov等9研究了大规模集体机器人学习系统如何同时获取一系列行为,开发了一个可扩展且可泛化的多任务深度强化学习算法9.基于上述讨论,本文使用强化学习方法来处理居民区微电网中的不确定性问题.
随着电动汽车的普及,强化学习在电动汽车充电调度中面临着更多挑战.电动汽车数量的增加导致状态和动作空间变得庞大,给强化学习带来了维数灾难问题.为了解决这个问题,Huang等10在基于事件的优化框架内重新制定了其提出的模型,并提出了一种基于随机参数事件的控制策略.然而,该研究未考虑V2G模式的影响,而引入V2G模式将增加问题的复杂性10.因此,对于该主题需进一步研究和探索.
为了解决居民区大规模集中充电面临的难题,本文提出了一种基于强化学习的充电策略,构建了一个包含光伏发电系统、蓄电池、居民负载和大规模集中充电站的居民区微电网模型,并考虑了V2G模式以及多种类型电动汽车的非线性充电模型.相较于其他相关研究,本文所构建的模型更加全面.本文将充电问题建模为一个约束马尔可夫决策过程,并应用无模型的强化学习方法来求解,有效地解决了微电网中供需不确定性的问题.此外,本文还将充电站内的电动汽车按状态分成不同的集合,通过智能体给集合发送控制信号,并提出一种充放电策略,有效解决了大规模电动汽车数量所带来的维数灾难问题.

1 居民区微电网系统模型

1.1 系统描述

本文研究了包含光伏发电、蓄电池和多个充电桩的居民区微电网模型,同时综合考虑居民负载用电的影响.为缓解电网压力并实现削峰填谷[11-12],系统引入了V2G服务,使电动汽车用户在电价高时可向电网售电以获取收益.

实际电动汽车充电过程中,通常采用两阶段充电方案.考虑到实际情况,本文采用非线性的电池充电模型,并按照Fan等13的研究,采用如下公式表述:

Δt1=Ec-EiniPmax,Eini<Ec;0,
Δt2=1aln(b-aEcb-aEr),Eini>Ec;0,

其中:Ec表示电池负荷的阈值,本文定义为电池最大电荷量的75%;Eini代表电动汽车到达集中充电站时的初始电荷量;Er代表电动汽车需求电量,在电动汽车离开之前必须得到满足.根据式(1)式(2)Δt1Δt2分别是线性充电阶段和非线性充电阶段的充电时间,总的充电时间tc=Δt1+Δt2.Pmax是电动汽车最大额定功率,在恒流充电时,它是一个不变量;而当Eini>Ec时,充电功率则成为一个变量.ab是由电车的最大容量和额定充电功率决定的常数.例如,本文将Type3型电动汽车的能量和功率变化曲线在图1中描绘出来.

本文假设电动汽车在接受V2G服务之前必须满足最低电量阈值Ed,如果电池电量低于Ed,或者电动汽车的电池电量降至Ed以下时,充电站将不提供V2G服务.电动汽车放电时间表示如下:

td=Eini-EdPmax,Eini>Ed.

本文采用的阶梯电价模型如图2所示.该模型采用峰谷电价,旨在满足用户需求的基础上最大化运营利润.运营利润的来源主要有4个方面:①电动汽车充电费用的差额;②在V2G模式下获取的电动汽车放电能量费用的差额;③在用户需求和负载需求均得到满足的情况下,向电网出售电量获得的收入;④出售蓄电池储存能量获取的利润.

本文将充电调度问题建模为约束马尔可夫决策过程(CMDP),并采用强化学习方法进行求解.

1.2 问题描述

本文的优化目标是在满足用户需求的基础上,最大化运营商的利润.因此,本文的目标利润可以表示为

Prt=Enettpgridt+Echatpsellt-Edistpbuyt+ELOADtpgridt.

其中:Enett是充电站卖给电网的电量与从电网购买的电量之差,即Enett=Esellt-Ebuyt,当充电站向电网购买电量超过卖给电网的电量时,该项为负值;pgridtpselltpbuyt分别代表t时刻电网电价、卖给车主的电价以及从车主购电的电价;Echat是在t时刻所属执行周期内充电站内电动汽车充电量;Edist是在t时刻的执行周期内充电站内电动汽车放电总量;ELOADt代表居民区负载消耗电量.

本文中的优化问题需要满足以下约束条件:

0EBESEBES¯,
0PchargePmax,
0PdischargePmax,
Enett+EPVt=Echat-Edist+ELOADt+EBESt.

约束(5)是蓄电池储能上下限的约束.约束(6)和(7)表示电动汽车充放电的功率都不能超过电动汽车的额定功率.约束(8)是居民区微电网的能量平衡约束,EPVt表示光伏发电量,EBESt表示蓄电池的充放电量(充电为正,放电为负).

1.3 约束马尔可夫决策过程

本文将居民区集中充电站的电动汽车充电调度问题建模成CMDP.考虑到居民区用户的生活习惯和规律,本文以24 h为一个优化周期,起止时间为上午9:00至第二天上午9:00.此外,每15 min为一次智能体的执行周期,记为Δt,每个执行周期的开始被视为智能体的决策点.本文将探讨CMDP的系统状态、动作、转移函数、约束以及奖励.

1) 系统状态:本文假设在某一时刻t,居民区负载需求和光伏发电的输出功率在Δt时间段内是恒定的.因此,光伏发电量EPVt和负载需求电量ELOADtΔt内也是恒定的.同时,蓄电池的储电状态EBESt也被视为系统的一个状态变量.对于集中充电站内的n个充电桩,n1,2,,N,令dn,trespn,tres分别表示充电桩对应电动汽车的剩余需求和剩余停车时间.此外,本文将当前时刻t作为系统状态之一,并且智能体需要获取阶梯电价信息以获取最大利润.因此,t时刻电网电价Pgridt,电动汽车充电电价Psellt,V2G服务从车主购电的电价Pbuyt也被视为系统的状态变量.综上,本文的系统状态可以描述为St=(t,EPVt,ELOADt,EBESt,d1,tres,,dN,tres,

p1,tres,,pN,tres,Pgridt,Psellt,Pbuyt).

2) 动作:基于给出的状态St,以及式(8)给出的能量平衡约束,系统的动作可以表示如下:At=(aGt,aBESt,a1t,,aNt).其中,aBESt代表蓄电池的充放电动作,ait表示第i个充电桩连接电动汽车的充放电动作,aGt表示智能体向电网的购电动作.

3) 状态转移:系统状态从St转换到St+1的过程,不仅由动作At决定,还会受到t+1时刻进入充电站的车辆、光伏发电输出以及居民负载的影响.首先,蓄电池的状态转移由蓄电池充放电动作决定:

EBESt+1=EBESt+aBESt.

而第i个充电桩的剩余需求di,tres和剩余充电时间pi,tres的状态变化会受到t+1时刻进入充电站的车辆影响.这是因为,如果t时刻的第i辆车的充电需求全部满足,即di,tres=0pi,tresΔt,那么这辆车仍然会占用这个充电桩,在t+1时刻这个充电桩的状态di,t+1res=0pi,t+1res=pi,tres-Δt.还有一种情况是,当t时刻的第i辆电动汽车的pi,tres<Δt,而在t+1时刻没有新的电动汽车进入充电站,或者没有新进站的电动汽车与这辆电动汽车对应的充电桩连接,那么这个充电桩的状态di,t+1respi,t+1res都将置零.否则,di,t+1respi,t+1res都会与新的电动汽车的剩余需求和剩余停车时间对应.那么,di,t+1respi,t+1res的状态转移函数如下:

dn,t+1res=dn,tres-antpn,tres>Δt;0dn,t+1tpn,tresΔt;
pn,t+1res=pn,tres-Δtpn,tres>Δt;0pn,t+1respn,tresΔt.

4) 约束:假设充电桩所提供的最大充放电功率能够满足3种类型电动汽车的最大充放电功率需求,并且充电站在一个执行周期内可以满足所有电动汽车的最大总充放电功率需求.为了保证电动汽车在放电之后仍然能够满足充电需求,需要对充放电动作进行约束:

tnatna+pn,tresan,tnatzn,tnacdn,tres-SoCn,tini+tnatna+pn,tresan,tnatzn,tnad.

其中:tna表示给第n辆电动汽车执行动作的时刻t,当an,tnat为正时,表示正在充电,充电标志zn,tnac=1,否则为0;当an,tnat为负时,表示正在放电,放电标志zn,tnad=-1,否则为0. SoCn,tini表示第n辆电动汽车的初始电量.约束(12)保证了每辆电动汽车都能够在放电之后再充到所需求的电量.此外,蓄电池能量的上下限约束如式(5)所示.并且,蓄电池的充放电动作aBESt也需要遵守约束:

-aBESt¯aBEStaBESt¯.

5) 奖励:为了实现集中充电站的运营目标,需要在设置奖励函数时进行精心规划.本文的优化目标是在满足用户需求的基础上最大化集中充电站的利润,具体见式(4).因此,本文将奖励函数设定如下:

Rt(At,St)=0t<T;t=1TPrtt=T.

根据以上讨论,本文的充电优化调度问题可以描述为如下优化问题:

maxπEπt=1Tγt-1RtSt=s,At=a.s.t.    (5)~(8),(12),(13).

其中:γ是折扣因子;π表示控制策略.优化目标可以描述为找到一个最优的策略π,使得目标函数最大.

2 电动汽车所属集合与充放电策略的设计

2.1 电动汽车所属集合的设计

居民区微电网系统中,供需两侧均存在光伏发电功率、居民负载需求及电动汽车到达、离开时间等不确定性.针对这一问题,本文采用无模型强化学习方法解决充电调度.然而,大规模集中充电站的状态与动作空间庞大,增加了强化学习训练的复杂性.为克服维度灾难,本文提出了一种降低动作空间维度的充放电策略.

基于本文采用的阶梯电价模型,充电桩内的电动汽车被分成4个不同的集合:CtDtWtIt.电动汽车所属集合的确定方式如下:

Ct代表接受充电的车辆集合.如果进站的电动汽车不接受V2G放电服务,或者不愿意等待进入下一个V2G时刻进行放电操作,那么这辆电动汽车就准备进入Ct,表示为正在集合CtCAND中.在Ct这个集合内的电动汽车将只接受充电服务,直到需求被满足.确定Ct集合的方式详见算法1.

算法1 确定Ct集合

1.获得CtCAND,接受V2G服务放电完成的车辆集合DtfV2GCAND

2.对CtCAND内电动汽车执行:

3. 用公式tc=ftc(SoCn,t,dn,tres)计算CtCAND内电动汽车充到需求电量所用时间;

4. 当tc>pn,tres时执行:

5. 将该电动汽车放入RCt

6.将CtCAND集合与接受V2G服务放电完成的车辆集合DtfV2GCAND合并;

7.将合并后的集合中属于RCt的电动汽车去除,组成的新集合即为Ct集合.

ftc(SoCn,t,dn,tres)表示从电量状态SoCn,t充电到需求电量所用的时间,SoCn,t代表第n辆电动汽车在t时刻的电量. RCt代表不允许充电集合,在这个集合内的电动汽车将不被允许接受充电服务.

Dt是放电车辆的集合,其中的电动汽车接受V2G服务并出售储存电量以获取利润.为减少电池充放电次数并延长电池寿命,本文采用先放电再充电的策略,并且在完成放电后不再允许电动汽车接受V2G服务.本文将放电容许阈值Ed设定为30%EVmax,只有当电动汽车进站时电量超过这个阈值,充电站才会提供V2G服务.确定Dt集合的方式详见算法2.

算法2 确定Dt集合

1.获得接受V2G服务的候选电动汽车集合DtCAND,及Wt内到达V2G时刻的电动汽车集合WtfV2GCAND

2. 对DtCAND内电动汽车执行:

3.  当SoCn,t<30%EVn,max时执行:

4.  将该电动汽车放入RDt

5.  通过公式td=ftd(SoCn,t,25%EVn,max)计算放电到25%EVmax的时间td

6.  计算从25%EVmax充电到需求电量所用的时间tc

7.  当td+tc>pn,tres时执行:

8.   将该电动汽车放入RDt

9. 将DtCAND集合与WtfV2GCAND集合合并;

10.将合并后的集合中属于RDt的电动汽车去除,组成的新集合即为Dt集合.

ftd(SoCn,t,25%EVn,max)是计算从SoCn,t放电到25%EVmax电量经过的时间. RDt是不允许其接受V2G服务的电动汽车组成的集合.

Wt是等待进入Dt'的电动汽车集合,其中t'>t,指的是下一个V2G时段.本文将9:00-11:3014:00-16:3019:00-21:0021:00-23:00这些时间段定义为V2G时段,因为这些时间段的下一个时间段阶梯电价相对更低.确定Wt集合的方式详见算法3.

算法3 确定Wt集合

1.获得等待V2G时刻的候选电动汽车集合

WtCAND

2. 对WtCAND内电动汽车执行:

3.  当SoCn,t<30%EVn,max时执行:

4.   将该电动汽车放入RWt

5.  当tfV2G-t>pn,tres时执行:

6.   将该电动汽车放入RWt

7. 将合并后的集合中属于RWt的电动汽车去除,组成的新集合即为Wt集合.

RWt代表被拒绝进入Wt集合的电动汽车组成的集合,tfV2G表示当前时刻t之后的第一个V2G时段的开始时刻.

It代表已经充电完成的电动汽车集合,在这个集合内的车辆将不进行任何操作,在离开时间到达后自动驶出充电站.

需要指出的是,在任意时刻t,不会同时存在WtDt,当智能体到达V2G时刻时,自动将Wt中的电动汽车移入Dt.通过这种集合划分,本文无需关注每辆电动汽车的充电过程,而是向集合发出指令信号,并按照本文所提出的充电策略对充电电动汽车进行电量分配,从而减小行动空间的维度.

2.2 充电调度策略

放电策略:设计放电策略目的是找到最优的顺序排列好Dt内的电动汽车,确保每辆车在离开时间到达之前全部满足需求,在此基础上最大化收益Prt.本文的放电策略与确定Dt集合的策略一致.根据图2,在一个V2G时段内电价是恒定的,因此接受V2G服务放电的电动汽车越多,运营商的收益就越多.本文假设充电站允许的最大放电功率足够大,因此在V2G时刻,Dt集合内满足条件的所有电动汽车均可进行放电.因此,一个执行周期内的最大放电量定义为ψt=iDtmin(fd(SoCiDt,Δt),SoCiDt-0.25EViDt,max).其中,fd(x,y)是计算在xSoC状态下,经过Δt时间所放出的电量.而SoCiDt是指Dt集合内第i辆电动汽车的当前电量.在此,假设充电站允许的最大放电量能够满足本文提出的ψt,这样可以简化问题复杂度.

充电策略:设计目标是找到一种最佳的充电顺序,以给Ct内的电动汽车进行充电.由于居民区的用户通常在晚上18:00之后进站,并且他们的离开时间通常在第二天早上9:00之前,充电站有充足的时间来安排充电计划.因此,在电动汽车进站时不需要立即按最大功率进行充电.相反,充电站可以利用夜间阶梯电价谷底时间进行充电,以实现削峰填谷的效果.因此,需要确定每个执行周期的最小充电量βt,确保充电站按照βt充电也能够最终满足所有电动汽车的需求.最小充电量的计算方式是,直到电动汽车离开之前的数个执行周期内以该充电量充电,恰好能够满足需求.此外,还确定了每个执行周期的最大充电量ζt,定义为ζt=iCtmin(fc(SoCi,t,Δt),diCt,tres-SoCi,t).其中,fc(x,y)是计算从x状态的电量开始,充电Δt时间后的电量,diCt,tres表示充电集合Ct内第i辆电动汽车的剩余需求电量.为了简化研究复杂度,本文假设充电站允许的最大总充电量满足ζt.有了βtζt后,就只需要确保一个执行周期内的总充电量et满足:

βtetζt.

本文的充电策略如算法4所示.

算法4 充电策略

1. 确定按βt充电的电动汽车集合Mt,充电动作etβt

2. 给Mt内的电动汽车分配βt执行充电;

3. 按et=et-βt更新et

4. 将除Mt以外的Ct内的电动汽车组成集合CMt,确定CMt内每辆电动汽车离开时间pCM,tres

5. 按pCM,tres从小到大顺序排列CMt内的电动汽车;

6. 当et>0时执行:

7. 对CMt内第i辆电动汽车执行:

8. 充电1 min,计算充电后电量SoCCM,ti

9. 计算Ct内所有电动汽车电量SoCCt,t+Δti

10.计算Ct内所有电动汽车剩余需求dCt,t+Δtres

11.计算所有电动汽车剩余停车时间pCt,t+Δtres.

根据以上讨论,重新描述MDP.本工作的系统状态将重新定义为SRt=(t,EPVt,ELOADt,EBESt,

βt,ζt,ψt,Pgridt,Psellt,Pbuyt),而动作重新定义为ARt=(aBESt,et).因此,优化问题(15)可以重新写为

maxπEπt=1Tγt-1RtSRt=S,ARt=As.t.    (5)~(8),(12),(16).         .

优化问题(18)与问题(16)相比,决策变量数目大幅减少,在状态空间和动作空间上的维度显著降低,这为本文研究提供了便利.

3 安全强化学习方法

3.1 基于充电策略的Lagrangian-DDPG算法

深度确定性策略梯度(deep deterministic policy gradient,DDPG)是一种适用于解决连续动作空间强化学习问题的算法.DDPG算法结合了深度神经网络和确定性策略梯度方法,能够有效训练智能体.

DDPG算法采用了Actor-Critic架构,其中包括4个主要组件:Actor网络、Actor目标网络、Critic网络和Critic目标网络 .Actor网络接收当前状态作为输入,并输出一个确定性的动作值. Actor目标网络用于计算目标Q值,以便进行更新. Critic网络评估Actor选择的动作的Q值(即动作-值函数). Critic目标网络用于计算目标Q值,以便进行Critic网络的更新.这种四个网络结构使得DDPG算法能够有效处理连续动作空间中的强化学习问题. DDPG算法的目标函数可以表示为

J=Est~E[Q(st,π(st|θ)|ω)].

Lagrangian-DDPG (LDDPG)算法是DDPG算法的变体,通过引入拉格朗日乘子,可以将不等式约束问题转换为等式约束问题,并将问题纳入目标函数中进行优化.LDDPG算法的目标函数可以表示为

J=Est~E[Q(st,π(st|θ)|ω)-βc(st,at)].

与DDPG算法不同的是,LDDPG算法中的β是拉格朗日系数,可以用来调节约束条件的权重大小. c(st,at)表示约束条件. LDDPG算法相对于DDPG算法在鲁棒性、收敛速度和可调节性等方面都具有优势,并且可以解决广泛的连续动作控制问题.

需要指出,在引入拉格朗日乘子之后,式(14)所定义的奖励函数需要重新描述.这是因为在式(14)定义奖励时涉及到稀疏奖励的概念.此外,考虑到本文给出的约束条件以及采用的LDDPG算法,有必要将惩罚项整合起来,并通过拉格朗日乘子的形式添加到奖励函数中.本文的惩罚项c(st,at)定义为

c(st,at)=max0,-EBES-aBES+max0,aBES+EBES-EBES¯+max0,βt-et+max0,et-ζt+max0,n-95EBES.

其中:前2项是对蓄电池能量超过上下限的惩罚;第3,4项是对总充电量违背约束(16)的惩罚;最后一项是对蓄电池在次日9点优化周期结束前未置零的惩罚,n是统计执行周期次数的计数值.根据以上讨论,本文重新定义奖励函数如下:

Rt(At,St)=
υ(Prt-μ)-βc(st,at),t<T;υ(Prt-μ)+ωt=1TPrt-βc(st,at),t=T.

其中:υμω是根据先验知识给定的超参数.

本文将阐述设定奖励函数的合理性:首先,每个时间步的奖励应该在一个合理的正负区间范围内,这可以通过超参数υμ来解决.其次,本文优化目标是在固定周期内累计利润,因此使用超参数ω来对每个时间步的累计奖励进行结算,以免算法过度追求短期利益.最后,引入拉格朗日惩罚项βc(st,at)对奖励增加进行约束,以减少算法违反惩罚项的情况.在本文中,将拉格朗日系数β设为定值.

3.2 安全强化学习框架的引入

本文已将优化问题建模成CMDP,但仍有可能无法满足电动汽车的需求.因此,本文引入了基于规则的安全过滤器,以确保充电站在任何情况下都能满足电动汽车的需求.

安全过滤器算法:针对电动汽车充电动作et,进行判断:如果et<βt,那么令et=βt;如果et>ζt,那么令et=ζt.类似地,针对蓄电池充放电动作aBESt,如果aBESt+EBESt>EBES¯,那么令aBESt=EBES¯-EBESt;如果aBESt+EBESt<0,那么令aBESt=-EBESt.其他情况则维持原本动作.

智能体需要先满足安全的硬约束才能获得奖励,因此,本文采用安全过滤器修改智能体的行动以确保其符合硬性约束,尽管算法的性能可能会受到一定影响.然而,在算法中引入拉格朗日惩罚项使得算法在探索过程中也会考虑安全的硬约束.随着训练的进行,智能体与安全过滤器的要求逐渐变得一致.最终,算法在性能与安全约束之间达到平衡.

4 实验对比

4.1 微电网的搭建

本文构建了包含集中充电站、光伏发电系统、蓄电池设备和居民负载的居民区微电网系统.基于中国东南地区气象数据,天气分为晴、多云、阴和雨雪4类,并确定各自概率[14].假设光伏发电功率及居民负载在每小时内保持恒定,分别将不同天气下的发电量和高斯分布的负载需求量列入表1表2.

3种类型电动汽车相应的参数见表3.确定了3种车型的充电曲线,如图3所示.

考虑了具有100个充电桩的集中充电站.本文将蓄电池的最大容量设置为600 kWh,最大充放电功率为200 kW,因此aBESt最大为50 kWh.需要指出的是,蓄电池的储能也是获取利润的关键一环,蓄电池初始状态会影响运营收益.为了便于计算收益,本文在每个优化周期的最后将蓄电池的状态置0,并将蓄电池状态与0的差值计入利润中.

4.2 算法对比

本文比较了3种算法在搭建环境下的表现,包括LDDPG算法、LSAC(Lagrangian‑soft actor‐critic)算法和CPO(constrained policy optimization)算法.并且增加了2种常规算法进行对比:第1种是最大充电模式,即充电站以最大充电量给站内的待充电车辆执行充电操作;第2种是最小充电模式,即充电站以能保证所有电动汽车满足需求的最小充电量βt执行充电操作.

4.3 结果分析

对所使用的算法进行了600次与环境交互的训练,得到的累计奖励对比如图4所示.可以看出,所有算法均达到了收敛.为进一步探究不同算法的性能表现,将它们在运营商利润和惩罚方面的表现示于图5图6中.图5显示,LDDPG算法得到的运营商利润要高于CPO和LSAC算法.图6比较了3种算法在违反约束条件时受到的惩罚.数据显示,相较于LSAC算法和CPO算法,LDDPG算法所获惩罚更小.这是由于LSAC算法对奖励函数更加敏感,也体现出LDDPG算法在奖励函数处理方面的优势.

为了进一步分析本文算法的性能,将所用到的强化学习算法与上文给出的2种常规算法的利润进行比较.比较了不同方法7 d的收益情况,如图7所示.其中,Mode1表示在每个执行周期以最大充电量ζt充电,而Mode2表示在每个执行周期内以最小充电量βt充电.需要指出的是,CPO算法在利润和违反约束惩罚这两方面的表现不佳.因此,在进一步的对比中,将CPO算法排除在外.从图7a可以看出,LDDPG算法得到的利润最高.而从图7b中可以观察到,与Mode1相比,LDDPG算法提高了约40%的利润,而LSAC算法仅提高了约20%的利润.

5 结 语

本文提出了一种能够解决居民区大规模集中充电困难的基于强化学习的充电策略.构建了一个包含光伏发电系统、蓄电池、居民负载以及大规模集中充电站的居民区微电网模型,同时考虑了V2G模式.相较于其他研究,所构建的模型考虑得更加全面.将充电优化问题建模为CMDP,采用无模型的强化学习方法求解.将充电站内的电动汽车按状态划分为不同的集合,提出一个充放电策略,有效解决了大规模电动汽车数量带来的问题,并引入安全过滤器来保证不违背硬约束.与其他算法对比结果表明本文提出的策略性能更优.

参考文献

[1]

Zheng Y CNiu S YShang Y Tet al.Integrating plug‑in electric vehicles into power grids:a comprehensive review on power interaction mode,scheduling methodology and mathematical foundation[J].Renewable & Sustainable Energy Reviews2019112:424-439.

[2]

Wang BZhao D BDehghanian Pet al.Aggregated electric vehicle load modeling in large‑scale electric power systems[J].IEEE Transactions on Industry Applications202056(5):5796-5810.

[3]

Kempton WLetendre S E.Electric vehicles as a new power source for electric utilities[J].Transportation Research Part D:Transport and Environment19972(3):157-175.

[4]

Islam SIqbal AMarzband Met al.State‑of‑the‑art vehicle‑to‑everything mode of operation of electric vehicles and its future perspectives[J].Renewable and Sustainable Energy Reviews2022166:112574.

[5]

Zhou C QXiang YHuang Yet al.Economic analysis of auxiliary service by V2G:city comparison cases[J].Energy Reports20206:509-514.

[6]

Rachid AFadil H EGaouzi Ket al.Electric vehicle charging systems:comprehensive review[J].Energies202216(1):255.

[7]

Wang Q LLiu XDu Jet al.Smart charging for electric vehicles:a survey from the algorithmic perspective[J].IEEE Communications Surveys & Tutorials201618(2):1500-1517.

[8]

Luo CHuang Y FGupta V.Stochastic dynamic pricing for EV charging stations with renewable integration and energy storage[J].IEEE Transactions on Smart Grid20189(2):1494-1505.

[9]

Kalashnikov DVarley JChebotar Yet al.Scaling up multi‑task robotic reinforcement learning[C]//Proceedings of the 5th Conference on Robot Learning.London,2022:557-575.

[10]

Huang Q LYang LHou Cet al.Event-based EV charging scheduling in a microgrid of buildings[J].IEEE Transactions on Transportation Electrification20239(1):1784-1796.

[11]

Wang Y QZhang JLi Let al.Research on coordinated charging control strategy load optimization of electric vehicles in residential area[J].IOP Conference Series:Earth and Environmental Science2020510(6):062030.

[12]

Zhang T YPota HChu C Cet al.Real-time renewable energy incentive system for electric vehicles using prioritization and cryptocurrency[J].Applied Energy2018226:582-594.

[13]

Fan P YSainbayar BRen S L.Operation analysis of fast charging stations with energy demand control of electric vehicles[J].IEEE Transactions on Smart Grid20156(4):1819-1926.

[14]

孙翰墨,申烛,郭宗军,.不同天气类型对光伏电站理论发电量影响的研究[J].太阳能2017(6):38-42.

[15]

Sun Han‑moShen ZhuGuo Zong‑junet al.Research on the influence of different weather types on the theoretical power generation of photovoltaic power plants[J].Solar Energy2017(6):38-42.

基金资助

国家自然科学基金资助项目(61873049)

AI Summary AI Mindmap
PDF (2425KB)

345

访问

0

被引

详细

导航
相关文章

AI思维导图

/