当前位置 : 首页 > 专利喜报 > 华南理工大学应伟勤获国家专利权

华南理工大学应伟勤获国家专利权

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

龙图腾网获悉华南理工大学申请的专利一种基于动态掩码注意力的多起点序列决策强化学习方法获国家发明授权专利权，本发明授权专利权由国家知识产权局授予，授权公告号为：CN121119029B 。

龙图腾网通过国家知识产权局官网在2026-05-01发布的发明授权授权公告中获悉：该发明授权的专利申请号/专利号为：202511268208.6，技术领域涉及：G06N3/092；该发明授权一种基于动态掩码注意力的多起点序列决策强化学习方法是由应伟勤;谭铖清;王冲;唐可珂;黄森设计研发完成，并于2025-09-05向国家知识产权局提交的专利申请。

本一种基于动态掩码注意力的多起点序列决策强化学习方法在说明书摘要公布了：本发明公开了一种基于动态掩码注意力的多起点序列决策强化学习方法，包括以下步骤：获取杀伤网中的装备节点以及对抗环决策任务目标；将对抗环决策建模为具有决策空间的马尔可夫决策过程；采用动态掩码注意力模型学习马尔可夫决策过程中的最优策略，在注意力模型中显式引入动态掩码机制；使用带时间约束的理想点奖励函数，作为马尔可夫决策过程的奖励函数，以便引导注意力模型学习构建满足闭环时间约束的对抗环的策略；采用多起点采样训练策略，训练时从不同的初始对方节点同时采样多个候选解，以这些解的平均效能作为策略优化的共享基线；输出对抗环策略。

本发明授权一种基于动态掩码注意力的多起点序列决策强化学习方法在权利要求书中公布了：1.一种基于动态掩码注意力的多起点序列决策强化学习方法，其特征在于，包括以下步骤：获取杀伤网中的装备节点以及对抗环决策任务目标；将对抗环决策建模为具有决策空间的马尔可夫决策过程；采用动态掩码注意力模型学习马尔可夫决策过程中的最优策略，并在注意力模型中显式引入动态掩码机制，动态约束每个决策步骤的可选节点集合，确保生成的路径满足约束条件；使用带时间约束的理想点奖励函数，作为马尔可夫决策过程的奖励函数，以便引导注意力模型学习构建满足闭环时间约束的对抗环的策略；采用多起点采样训练策略，训练时从不同的初始对方节点同时采样多个候选解，并以这些解的平均效能作为策略优化的共享基线；输出满足约束解的对抗环策略；所述动态掩码注意力模型为：问题实例为由个对方装备和个我方装备组成的图，其中每个装备由特征向量表示；解即路径，所述解为装备节点序列，其中，4m为装备节点总数，每四个连续节点构成一个对抗环，依次包含一个对方装备、一个我方探测装备、一个我方指控装备和一个我方打击装备；所有对方装备在路径中出现一次，我方装备的出现频率受其各自通道数限制；基于注意力模型的策略pπ|s，在给定杀伤网对抗环决策问题特定实例s下选择解π，策略由参数化，表示如下：；是策略在时间步t选择的装备节点，是策略在前t-1步已选择的所有装备节点序列；在编码器中，所有对方装备和我方装备被嵌入为向量表示；解码器以编码器产生的节点嵌入和上下文信息为输入，顺序输出由选定装备组成的序列π，此外，所述解码器在每一步使用掩码选择正确类型的装备，确保生成的路径符合杀伤网场景的特定约束；使用带动态掩码机制的解码器进行解码：解码器由一个多头注意力层组成，后接带掩码的单头注意力机制来计算概率分布；在每一步，n为总步数，解码器基于编码器产生的节点嵌入和之前步骤t′t的上下文嵌入，输出选定的装备节点；接着计算查询与所有装备节点之间的相似度；为计算最终输出概率，使用单头注意力机制；在应用掩码前，使用tanh函数裁剪相似度分数，确保值限制在[-C,C]范围内，-C,C分别为下限和上限。

如需购买、转让、实施、许可或投资类似专利技术，可联系本专利的申请人或专利权人华南理工大学，其通讯地址为：510000 广东省广州市天河区五山路381号；或者联系龙图腾网官方客服，联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

请提出您的宝贵建议，有机会获取IP积分或其他奖励

华南理工大学应伟勤获国家专利权

热门推荐

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务