大连海事大学王洪振获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉大连海事大学申请的专利一种基于多智能体强化学习与模仿学习的多船协同避碰方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121411156B 。
龙图腾网通过国家知识产权局官网在2026-05-01发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511693655.6,技术领域涉及:G05B13/04;该发明授权一种基于多智能体强化学习与模仿学习的多船协同避碰方法是由王洪振;刘正江;刘松涛;程子轩设计研发完成,并于2025-11-18向国家知识产权局提交的专利申请。
本一种基于多智能体强化学习与模仿学习的多船协同避碰方法在说明书摘要公布了:本发明涉及船舶避碰控制领域,具体涉及一种基于多智能体强化学习与模仿学习的多船协同避碰方法,包括:基于深度Q网络搭建多智能体深度强化学习架构,深度Q网络包括决策网络和评估网络,同时进行多智能船舶导航环境建模;根据导航环境并利用训练集对强化学习架构进行训练,得到训练好的强化学习架构,训练包括模仿学习和强化学习,模仿学习包括基于专家策略生成示范状态的动作空间;强化学习包括各智能船舶基于强化学习架构,生成探索状态的动作空间;在避碰决策阶段时,智能船舶基于观测信息,利用训练好的强化学习架构生成船舶运动参数,基于船舶运动参数生成并执行避碰动作。本发明在无显式通信的分布式执行条件下,实现多船之间的隐式协同。
本发明授权一种基于多智能体强化学习与模仿学习的多船协同避碰方法在权利要求书中公布了:1.一种基于多智能体强化学习与模仿学习的多船协同避碰方法,其特征在于,包括以下步骤: 基于深度Q网络,搭建多智能体深度强化学习架构,所述深度Q网络包括决策网络和评估网络,同时进行多智能船舶导航环境建模; 获取训练集,根据多智能船舶导航环境模型并利用训练集对所述强化学习架构进行训练,得到训练好的多智能体深度强化学习架构,所述训练包括模仿学习和强化学习,所述模仿学习包括智能船舶基于专家策略生成示范状态的动作空间;所述强化学习包括智能船舶基于所述强化学习架构,生成探索状态的动作空间;在所述训练中,根据调度概率调整每一训练回合中使用所述模仿学习和强化学习的比例; 在避碰决策阶段时,智能船舶基于观测信息,利用训练好的所述多智能体深度强化学习架构生成船舶运动参数,基于所述船舶运动参数生成并执行避碰动作,在所述强化学习架构的元组包括:船舶集合、环境状态、观测空间、动作空间、策略函数、状态转移函数、智能船舶的奖励函数、目标函数以及奖励衰减系数,所述强化学习架构的工作流程包括: 将多智能船舶导航环境模型输出的环境状态输入至智能船舶和背景船舶,所述智能船舶生成智能船舶的观测空间,所述背景船舶根据单船避碰方法生成背景船舶的动作空间; 将所述智能船舶的观测空间输入至所述决策网络,得到智能船舶的动作空间,将所述背景船舶的动作空间和所述智能船舶的动作空间输入至所述多智能船舶导航环境中,更新环境状态,同时生成智能船舶的即时奖励; 将智能船舶的观测空间、智能船舶的动作空间和智能船舶的即时奖励存入至共享经验库,共享经验库将存放的数据分别输入至决策网络和评估网络,所述评估网络根据存放的数据计算损失系数,并利用所述损失系数更新所述决策网络,损失函数的计算公式为: 其中,为损失函数,为批次大小,为t时刻的智能船舶奖励函数,为阻尼系数,为时间差分学习法处理函数,为t时刻的背景船舶观察空间,为智能船,为决策网络参数,为t时刻的智能船舶观察空间,为背景船舶,为评估网络参数,j为背景船舶的索引。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人大连海事大学,其通讯地址为:116026 辽宁省大连市甘井子区凌水街道凌海路1号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励