中国人民解放军国防科技大学周晗获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中国人民解放军国防科技大学申请的专利基于深度强化学习的仿生鱼领导者—跟随者编队控制方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115933712B 。
龙图腾网通过国家知识产权局官网在2026-05-01发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211435228.4,技术领域涉及:G05D1/485;该发明授权基于深度强化学习的仿生鱼领导者—跟随者编队控制方法是由周晗;相晓嘉;孙懿豪;唐邓清;赖俊;闫超;黄依新;兰珍;李子杏;谭沁;杨帆设计研发完成,并于2022-11-16向国家知识产权局提交的专利申请。
本基于深度强化学习的仿生鱼领导者—跟随者编队控制方法在说明书摘要公布了:本发明涉及一种基于深度强化学习的仿生鱼领导者—跟随者编队控制方法,包括:构建竞争双重Q网络;从预设仿真流场环境获取编队中每条跟随者及领导者的状态向量,并将当前时间步的状态向量输入竞争双重Q网络,配合基于模仿领导者行为的跟随者动作选择策略,对每条跟随者在编队的动作进行选择;竞争双重Q网络基于各条跟随者的编队奖励惩罚,优化带衰减系数的模仿学习损失函数,并重复前述步骤,获取训练完的网络模型;在线载入网络模型,并获取仿真流场环境中每条跟随者及领导者的状态向量,基于状态向量评估各跟随者当前状态下各个动作的Q值;各跟随者选择最大Q值对应的动作,保持领导者和跟随者的编队构型,完成编队控制任务。
本发明授权基于深度强化学习的仿生鱼领导者—跟随者编队控制方法在权利要求书中公布了:1.基于深度强化学习的仿生鱼领导者—跟随者编队控制方法,包括: S1.构建包含主网络和目标网络的竞争双重Q网络; S2.从预设仿真流场环境获取编队中每条跟随者及领导者的状态向量,并将当前时间步的所述状态向量输入所述竞争双重Q网络,以及,配合基于模仿领导者行为的跟随者动作选择策略,对每条所述跟随者在所述编队的动作进行选择;其中,所述状态向量包含七个元素,且七个所述元素分别为:期望的编队目标位置在当前跟随者鱼体坐标系下的水平偏差与竖直偏差、领导者和跟随者在全局坐标系下的攻角、跟随者在过去两个时间步内执行的历史动作、跟随者在当前时间步所属于的奇偶拍动周期标志位; S3.所述竞争双重Q网络基于各条所述跟随者的编队奖励惩罚,优化带衰减系数的模仿学习损失函数,并重复执行步骤S2至S3,获取训练完成的网络模型;其中,包括: S31.每条所述跟随者基于步骤S2选择的动作并执行,得到下一时间步的状态向量和回报值; S32.采集各条所述跟随者与环境进行交互的历史经验,并存储到经验池中;其中,所述历史经验为四元组,其中,s为某条所述跟随者和所述领导者在当前时间步的状态向量,a为所述跟随者执行的动作,即其鱼尾拍动的最大摆幅,r为所述跟随者执行动作a获取的回报,s'为所述跟随者执行动作a后,在下一时间步和所述领导者共同形成的新状态向量; S33.每隔预设的时间步,从所述经验池中进行随机采样,通过反向传播算法,基于带衰减系数的所述模仿学习损失函数,批次更新所述竞争双重Q网络中所述主网络的主网络参数,以及,对所述目标网络中的目标网络参数进行软更新,即朝向所述主网络参数更新所述目标网络参数; S34.当重复执行步骤S2至S3的训练回合数达到预设条件时,结束所述主网络参数和所述目标网络参数的更新,并保存训练后的所述竞争双重Q网络的模型参数,以获取所述网络模型; S4.在线载入所述网络模型,所述网络模型获取预设仿真流场环境中每条跟随者及领导者的状态向量,基于所述状态向量评估各所述跟随者在当前状态下各个动作的Q值; S5.各所述跟随者选择最大Q值对应的所述动作,从而保持所述领导者和所述跟随者之间的编队构型,完成编队控制任务。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国人民解放军国防科技大学,其通讯地址为:410073 湖南省长沙市开福区德雅路109号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励