关注电力系统多步决策优化问题,涉及传统优化方法、学习辅助型优化求解、强化学习、可微规划及混合式算法等,各方法具有不同特性,如传统方法的最优性保障与实时计算要求,强化学习的快速决策优势等。
强化学习背景
强化学习通过训练策略最大化奖励期望,适用于多步长决策优化问题,其优势包括快速决策、轻量部署和适于复杂问题,研究范围涉及多学科交叉领域,算法多样,如On - policy和Off - policy算法等。
在电力系统中的应用
应用需考虑高效训练、合理建模、安全保障等问题,面临电力系统强不确定性、复杂约束、训练方法低适应性等难点,如源荷不确定性、物理特性约束等。
报告焦点
针对策略训练难题,提出两阶段“全局 - 局部”深度强化学习策略搜索方法和基于课程学习的深度强化学习策略搜索方法。
两阶段“全局 - 局部”策略搜索方法
基于零阶梯度估计的ES - RL算法在全局搜索阶段具有可高度并行等优势,但收敛结果偏离原问题解;Proximal Policy Optimization(Policy Gradient)在局部微调阶段有更强局部搜索能力,但计算量大等。该方法应用于智能建筑空调需求响应控制,可提升控制性能,降低成本,控制策略能有效管理建筑温度和负荷,可部署至“边缘 - 云计算”协同控制框架。
基于课程学习的策略搜索方法
针对配电网关键负荷恢复(CLR)问题,利用强化学习构建求解方法,通过设计不同预测误差研究其对控制效果影响。基于课程学习将原问题拆分为子问题,按难度递增训练,实验表明该方法可提高策略控制性能,在不确定性环境下鲁棒性优于传统方法,还介绍了基于原始 - 对偶的可微规划和学习辅助型ADMM求解DC - OPF方法,并构建统一测试平台对比各类优化控制方法。
免责声明:我们尊重知识产权、数据隐私,只做内容的收集、整理及分享,报告内容来源于网络,报告版权归原撰写发布机构所有,通过公开合法渠道获得,如涉及侵权,请及时联系我们删除,如对报告内容存疑,请与撰写、发布机构联系
Policy策略电力系统张翔昱报告发布于:广东省声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。