南京大学俞扬获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉南京大学申请的专利一种基于强化学习的换热站控制方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116430732B 。
龙图腾网通过国家知识产权局官网在2026-05-08发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310413177.3,技术领域涉及:G05B13/04;该发明授权一种基于强化学习的换热站控制方法是由俞扬;何佳飞设计研发完成,并于2023-04-17向国家知识产权局提交的专利申请。
本一种基于强化学习的换热站控制方法在说明书摘要公布了:本发明公开一种基于强化学习的换热站控制方法,本发明主要由两部分组成,第一部分为基于生成对抗式的方法学习换热站的仿真环境模型,第二部分则使用PPO强化学习的技术进行换热真的控制策略训练,从而得到一个很好的换热站控制方法。基于换热站的历史数据构建换热站的仿真环境模型,并采用生成对抗式的方法来学习这个仿真环境模型,使得仿真环境能够在历史数据没有出现过的状态下也能获得很好的仿真效果。接着利用生成对抗结构学到的仿真环境模型去用PPO强化学习技术训练控制策略,由于PPO强化学习技术的训练过程较为稳定、训练过程方差较小,得到的控制策略能够很好的完成设计奖励函数给出的控制目标,并且控制结果温度不会出现滞后。
本发明授权一种基于强化学习的换热站控制方法在权利要求书中公布了:1.一种基于强化学习的换热站控制方法,其特征在于,包括如下步骤: 步骤1,确定换热站需要达成的控制目标,所述控制目标包括有换热站的状态和动作; 步骤2,获取并收集所述换热站执行的历史数据; 步骤3,基于所述换热站的历史数据,采用生成对抗式学习输出所述换热站的仿真环境模型; 步骤4,根据所述换热站的控制目标设定不同的奖励函数; 步骤5,基于所述仿真环境模型和奖励函数使用PPO强化学习技术进行PPO智能体的训练; 步骤6,利用训练后的所述PPO智能体执行换热站的实时控制; 在步骤3中基于所述换热站的历史数据,采用生成对抗式学习输出所述换热站的仿真环境模型,具体包括以下步骤: 步骤3.1,分别定义一个生成器和一个判别器; 步骤3.2,将所述换热站的当前状态和动作输入至所述生成器输出下一时刻的预测状态; 步骤3.3,将所述下一时刻的预测状态输入至所述判别器中,计算出奖励信号再传递给所述生成器; 步骤3.4,根据所述奖励信号采用PPO强化学习方法更新训练所述生成器; 步骤3.5,根据二分类损失函数采用梯度下降的方式更新训练所述判别器; 步骤3.6,直至训练结束后输出所述换热站的仿真环境模型; 在步骤4中,根据换热站的控制目标设定不同的奖励函数,以便于适应不同的场景,具体包括以下情况: 若将损失二次网回水温度控制在某一个目标温度周围时,奖励函数可以设置为:,其中,代表目标温度,为当前状态的二次网回水温度;若将能源消耗作为控制目标,可以将奖励函数设置为:其中,代表当前换热站消耗的水费,代表当前换热站消耗的电费;若有多个所述控制目标时,可以采用加权相加的方式定义奖励函数; 在步骤5中基于所述仿真环境模型和奖励函数使用PPO强化学习进行PPO智能体的训练,所述PPO智能体采用为Actor-Critic框架,具体训练步骤如下: 步骤5.1,初始化Actor和Critic网络; 步骤5.2,在所述Actor网络中根据所述换热站当前状态计算所述换热站当前执行的动作; 步骤5.3,根据所述仿真环境模型计算出所述换热站下一时刻的状态; 步骤5.4,根据所述奖励函数计算奖励信号; 步骤5.5,将步骤5.2至5.4中的动作保存并更新至所述Actor和Critic网络; 步骤5.6,当所述Actor和Critic网络达到训练次数时完成训练输出PPO智能体控制策略。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京大学,其通讯地址为:210046 江苏省南京市栖霞区仙林大道163号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励