当前位置 : 首页 > 专利喜报 > 四川水发勘测设计研究有限公司;四川大桥水电咨询监理有限责任公司翟锐获国家专利权

四川水发勘测设计研究有限公司;四川大桥水电咨询监理有限责任公司翟锐获国家专利权

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

龙图腾网获悉四川水发勘测设计研究有限公司;四川大桥水电咨询监理有限责任公司申请的专利基于博弈优化与多智能体强化学习的施工监理决策方法及系统获国家发明授权专利权，本发明授权专利权由国家知识产权局授予，授权公告号为：CN121526092B 。

龙图腾网通过国家知识产权局官网在2026-04-24发布的发明授权授权公告中获悉：该发明授权的专利申请号/专利号为：202610043432.3，技术领域涉及：G06Q10/063；该发明授权基于博弈优化与多智能体强化学习的施工监理决策方法及系统是由翟锐;李建辉设计研发完成，并于2026-01-14向国家知识产权局提交的专利申请。

本基于博弈优化与多智能体强化学习的施工监理决策方法及系统在说明书摘要公布了：本发明公开了基于博弈优化与多智能体强化学习的施工监理决策方法及系统，涉及施工监理决策领域。本发明通过构建基于Stackelberg主从博弈架构的数字孪生环境，结合图注意力网络对施工现场动态时空交互图进行特征提取，利用基于物理场论的安全风险势能场对博弈过程施加连续可微的硬性安全约束，并采用基于拉格朗日对偶优化的多智能体强化学习算法求解纳什均衡策略，从而使得监理智能体与施工资源智能体能够在复杂的动态博弈中实现风险规避—进度寻优的自动平衡，实现兼顾安全合规性与施工效率的智能协同决策。

本发明授权基于博弈优化与多智能体强化学习的施工监理决策方法及系统在权利要求书中公布了：1.基于博弈优化与多智能体强化学习的施工监理决策方法，其特征在于，包括以下步骤： S1.基于BIM模型数据与现场传感数据，定义包含施工智能体、监理智能体及资源智能体的决策智能体集合，根据智能体间的物理邻近与作业依赖关系构建动态时空交互图，并初始化智能体状态空间与智能体动作空间； S2.根据Stackelberg博弈逻辑赋予所述监理智能体领导者角色，并赋予所述施工智能体及资源智能体跟随者角色，定义用于量化作业收益与风险代价的博弈效用函数，并设定基于物理场论的安全风险势能场作为博弈的硬性约束； S3.将所述动态时空交互图输入至图注意力策略网络，通过图注意力层提取邻域特征表示，将所述Stackelberg博弈架构映射为部分可观察马尔可夫决策过程，并将所述博弈效用函数转化为强化学习奖励函数； S4.将所述决策智能体集合置入数字孪生环境进行交互，基于所述安全风险势能场构建对偶目标函数，利用受限多智能体强化学习算法交替更新策略网络参数与拉格朗日乘子，直至满足安全约束； S5.获取实时现场数据，经由训练完成的所述图注意力策略网络处理，输出联合动作向量，解码生成施工监理协同决策指令；所述步骤S2中，建立以监理智能体为领导者、其他智能体为跟随者的Stackelberg博弈架构的具体流程包括以下子步骤： S201.定义监理智能体为Stackelberg博弈的领导者，所述监理智能体的动作空间包括发布安全整改指令、调整区域风险阈值；S202.定义施工智能体与资源智能体为Stackelberg博弈的跟随者，所述施工智能体与资源智能体的动作空间包括调整施工速率、资源竞价申请，且跟随者在观测到领导者的动作后进行决策；S203.通过物理场论的安全风险势能场计算安全风险惩罚项，并构建包含任务进度收益项与安全风险惩罚项的博弈效用函数；所述步骤S203中，博弈效用函数具体表示为：；其中，所述表示第个智能体在时刻的博弈效用值；所述表示任务进度目标的权重系数；所述表示基于进度的常规任务收益函数，其中为时刻的联合状态，为时刻的联合动作；所述表示安全风险目标的权重系数；所述表示第个智能体在时刻的安全风险势能值；所述安全风险惩罚项具体表示为：；其中，所述表示智能体在时刻的安全风险惩罚项，该值直接代入博弈效用函数中；所述表示基础惩罚系数，用于平衡惩罚项与任务收益项的数量级；所述表示指数函数，用于构建非线性的高梯度惩罚边界；表示风险敏感度因子，数值越大，超出阈值后的惩罚增长越剧烈；表示修正线性单元操作，确保仅当势能值超过阈值时才产生惩罚；所述表示预设的安全势能阈值，对应物理空间中的安全警戒距离；所述安全风险势能值的具体计算流程表示为：；其中，所述表示第个智能体在时刻的安全风险势能值，所述表示索引属于智能体的邻居节点集合；所述表示库仑风险传播常数；所述表示第个邻居节点的危险荷载系数；所述表示时刻智能体与智能体之间的欧氏距离；所述表示智能体处于位置时的环境静态风险势能；所述步骤S4具体包括以下子步骤： S401.构建基于集中式训练分布式执行架构的策略网络与价值网络； S402.引入拉格朗日乘子，将基于所述安全风险势能场的硬性约束转化为对偶问题中的软性惩罚项，构建最大化期望收益与最小化约束违规的对偶目标函数； S403.通过原始-对偶更新算法，结合拉格朗日乘子对策略网络参数进行梯度下降更新，并通过策略网络参数对拉格朗日乘子进行梯度上升更新。

如需购买、转让、实施、许可或投资类似专利技术，可联系本专利的申请人或专利权人四川水发勘测设计研究有限公司;四川大桥水电咨询监理有限责任公司，其通讯地址为：610000 四川省成都市天府新区顺圣路178号；或者联系龙图腾网官方客服，联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

请提出您的宝贵建议，有机会获取IP积分或其他奖励

四川水发勘测设计研究有限公司;四川大桥水电咨询监理有限责任公司翟锐获国家专利权

热门推荐

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务