渊慧科技有限公司沃洛季米尔·姆尼赫获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉渊慧科技有限公司申请的专利异步深度强化学习获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114897156B 。
龙图腾网通过国家知识产权局官网在2026-04-24发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210422678.3,技术领域涉及:G06N3/092;该发明授权异步深度强化学习是由沃洛季米尔·姆尼赫;阿德里亚·普伊赫多梅内奇·巴迪亚;亚历山大·本杰明·格拉韦斯;蒂莫西·詹姆斯·亚历山大·哈莱;大卫·西尔韦;科拉伊·卡武克曲奥卢设计研发完成,并于2016-11-11向国家知识产权局提交的专利申请。
本异步深度强化学习在说明书摘要公布了:本公开涉及异步深度强化学习。用于异步深度强化学习的方法、系统和装置,包括在计算机存储介质上编码的计算机程序。所述系统之一包括被配置为实现多个工作体的一个或多个计算机,其中每个工作体被配置为独立于每个其它工作体进行操作,并且其中每个工作体与在深度神经网络的训练期间和环境的相应副本进行交互的行动体相关联。本说明书的多个方面具有更快速地训练神经网络和或降低训练的存储器要求的技术效果。
本发明授权异步深度强化学习在权利要求书中公布了:1.一种用于训练深度神经网络的系统,所述深度神经网络用于选择要由智能体执行的动作,所述智能体通过执行从预定动作集合中选择的动作来与环境进行交互,所述系统包括: 多个工作体中的所有工作体能够访问的共享存储器,其中,所述共享存储器存储所述深度神经网络的参数值; 多个处理器; 多个工作体,其中,每个工作体被配置为独立于每个其它工作体并且与其它工作体并行地在所述多个处理器中的一个处理器上进行操作,其中,每个工作体与在所述深度神经网络的训练期间和所述环境的相应副本进行交互的相应行动体相关联,并且其中,每个工作体进一步被配置为重复执行操作,所述操作包括: 确定所述深度神经网络的当前参数值; 接收表征由与该工作体相关联的所述行动体所交互的环境副本的当前状态的当前观察; 根据该工作体的相应动作选择策略使用由所述深度神经网络根据所述当前参数值生成的一个或多个输出来选择要由与该工作体相关联的所述行动体响应于所述当前观察而执行的当前动作; 在所述环境副本处于所述当前状态时,识别由于所述行动体执行所述当前动作所产生的实际回馈; 接收表征由与所述行动体所交互的环境副本的下一状态的下一观察,其中,所述环境副本响应于所述行动体执行所述当前动作而从所述当前状态变换到所述下一状态; 执行强化学习技术的迭代以使用所述实际回馈和所述下一观察来确定当前梯度; 利用所述当前梯度来更新累加梯度以确定更新的累加梯度; 确定用于更新存储在所述共享存储器中的深度神经网络的所述参数值的标准是否已经被满足;以及 在用于更新存储在所述共享存储器中的深度神经网络的当前参数值的所述标准已经被满足时: 使用所述更新的累加梯度和存储在所述共享存储器中的深度神经网络的所述参数值来确定所述深度神经网络的更新的参数值; 将所述深度神经网络的所述更新的参数值存储在能够由所述多个工作体中的所有工作体访问的所述共享存储器中。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人渊慧科技有限公司,其通讯地址为:英国伦敦;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励