Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
专利交易 商标交易 积分商城 国际服务 IP管家助手 科技果 科技人才 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 哈尔滨工业大学鄂斌获国家专利权

哈尔滨工业大学鄂斌获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉哈尔滨工业大学申请的专利一种飞行器智能多对多博弈目标分配方法、电子设备及存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120805633B

龙图腾网通过国家知识产权局官网在2026-05-01发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411937786.X,技术领域涉及:G06F30/27;该发明授权一种飞行器智能多对多博弈目标分配方法、电子设备及存储介质是由鄂斌;张赵寰宇;王小刚;王宁宇;姚江川;王志诚设计研发完成,并于2024-12-26向国家知识产权局提交的专利申请。

一种飞行器智能多对多博弈目标分配方法、电子设备及存储介质在说明书摘要公布了:一种飞行器智能多对多博弈目标分配方法、电子设备及存储介质,属于飞行器控制技术领域。为实现飞行器多对多快速博弈目标分配,本发明建立飞行器博弈对抗相对运动模型;设计飞行器智能多对多博弈对抗的训练环境、多智能体的状态空间和智能体的动作空间,采集训练环境中飞行器的观测值作为多智能体的状态空间,飞行器的输入编号作为智能体的动作空间,计算飞行器的燃料消耗及获得的奖励值;构建OW‑QMIX智能体结构,然后将多智能体的状态空间、智能体的动作空间和获得的奖励值输入到OW‑QMIX智能体结构中,输出飞行器智能多对多博弈目标分配策略训练结果,然后进行仿真验证。本发明实现飞行器多对多快速博弈目标分配。

本发明授权一种飞行器智能多对多博弈目标分配方法、电子设备及存储介质在权利要求书中公布了:1.一种飞行器智能多对多博弈目标分配方法,其特征在于,包括如下步骤: S1.建立飞行器博弈对抗相对运动模型; S2.基于步骤S1得到的飞行器博弈对抗相对运动模型设计飞行器智能多对多博弈对抗的训练环境、多智能体的状态空间和智能体的动作空间,采集训练环境中飞行器的观测值作为多智能体的状态空间,飞行器的输入编号作为智能体的动作空间,计算飞行器的燃料消耗及获得的奖励值; 步骤S2的具体实现方法包括如下步骤: S2.1.基于步骤S1得到的飞行器博弈对抗相对运动模型设计飞行器智能多对多博弈对抗的训练环境; 进行初始化设置,包括随机生成多个飞行器和博弈目标,并随机确定飞行器的速度大小和方向,仿真开始时刻,每个飞行器分别进行探测,并获取其视场内博弈目标的相对位置和速度信息;设置飞行器的位置初始化范围为x轴方向位置0~1km,其中目标的x轴方向位置10~11km,y轴方向位置-1~12km,z轴方向位置-10~10km,速度初始化大小取值范围为5000~5500ms,速度倾角与偏角方向取值范围为-10°~10°; S2.2.定义多智能体的状态空间的表达式为: ; 式中,代表第一个博弈飞行器的三轴相对位置,为第一个博弈飞行器的相对距离变化率; 定义智能体的动作空间的表达式为: ; 其中,智能体的动作空间为对应的博弈飞行器目标分配结果,为博弈飞行器的对应编号; S2.3.将每个飞行器的观测值分别输入智能体网络,智能体网络输出博弈飞行器的对应编号,飞行器群体依据飞行器博弈对抗相对运动模型进行仿真,在飞行器博弈对抗的过程中,计算飞行器的燃料消耗,并结合博弈对抗的结果计算分配算法所获得的奖励; 飞行器的燃料消耗的表达式为: ; 其中,Fuel为燃料消耗指标,n为飞行器总数,i为n中的任意一个,N表示飞行器机动总过载,t表示飞行器机动总时长; 分配算法所获得的奖励的表达式为: ; 其中,为第i个飞行器的燃料消耗指标,奖励为博弈对抗奖励值与燃料消耗奖励值之和; S3.构建OW-QMIX智能体结构,然后将步骤S2得到的多智能体的状态空间、智能体的动作空间和获得的奖励值输入到OW-QMIX智能体结构中,输出飞行器智能多对多博弈目标分配策略训练结果; 步骤S3的具体实现方法包括如下步骤: S3.1.将步骤S2得到的多智能体的状态空间、智能体的动作空间和获得的奖励值输入到OW-QMIX智能体结构中,随机选取输入的第一步为,利用步骤S1中的动力学方程进行飞行轨迹仿真,完成一个时间步长0.1s后随机获得下一时刻的状态空间,将数据组成四元组存入经验池D,设置经验池循环停止条件为最大回合数为100000次; 则设置当前网络的参数为,执行更新后的网络参数为,对单智能体网络进行正向传播得到执行更新后的第i个单智能体价值函数的表达式为: ; S3.2.针对多智能体学习中的价值分配问题,使用价值分解网络VDN进行多智能体训练,设置OW-QMIX智能体结构的网络权值为QS,A;θ、经验池为D、学习率为,设置联合行动价值函数为,表达式为: ; 其中,为第i个单智能体价值函数; S3.3.当多智能体需要提取分散策略时,VDN保证在智能体网络上操作全局取最大自变量和操作单独取最大自变量有相同的结果,得到表达式为: ; 每个单智能体通过其智能体网络收集信息,将其汇总后输入混合网络进行计算,混合网络由以绝对值函数作为启发函数的超网络组成,最终计算出; S3.4.设置TD目标与TD误差的表达式为: ; ; 设置反向传播获得梯度的表达式为: ; 设置更新网络参数的表达式为: ; S3.5.重复步骤S3.1-S3.4,直到输出飞行器智能多对多博弈目标分配策略训练结果; S4.对步骤S3得到的飞行器智能多对多博弈目标分配策略训练结果进行仿真验证。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人哈尔滨工业大学,其通讯地址为:150001 黑龙江省哈尔滨市南岗区西大直街92号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。