憨猴科技集团有限公司张倩获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉憨猴科技集团有限公司申请的专利面向过程GPU的实时容错与任务迁移系统及方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121560461B 。
龙图腾网通过国家知识产权局官网在2026-04-17发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202610092073.0,技术领域涉及:G06F9/455;该发明授权面向过程GPU的实时容错与任务迁移系统及方法是由张倩;赵宝华;王潇;詹瑜芬设计研发完成,并于2026-01-23向国家知识产权局提交的专利申请。
本面向过程GPU的实时容错与任务迁移系统及方法在说明书摘要公布了:本申请提供一种面向过程GPU的实时容错与任务迁移系统及方法,涉及分布式计算技术领域,其中,该方法包括:捕获GPU显存中的训练任务状态并利用增量差分算法生成差异数据,经轻量级压缩后存入多级存储系统;同时实时采集GPU节点健康指标,通过时序预测模型分析节点状态,在预测到故障风险或接收到抢占预警时触发迁移流程;迁移时暂停任务并生成最终增量检查点,通过RDMA网络将检查点数据快速传输至目标健康GPU节点,重建完整上下文状态并恢复任务执行,实现GPU任务的实时容错与无缝迁移。本申请提升了GPU集群在长时训练任务中的连续运行可靠性与资源利用效率。
本发明授权面向过程GPU的实时容错与任务迁移系统及方法在权利要求书中公布了:1.一种面向过程GPU的实时容错与任务迁移方法,其特征在于,包括: 捕获GPU显存中的训练任务状态,利用增量差分算法确定当前检查点的训练任务状态与上一次检查点的训练任务状态之间的关键数据块,基于所述关键数据块,生成差异数据; 对所述差异数据进行轻量级压缩,形成压缩后的增量数据,并将所述压缩后的增量数据存储到多级存储系统中; 在存储压缩后的增量数据的同时,实时采集当前GPU节点的多维度健康指标,并将所述多维度健康指标输入至时序预测模型中进行联合分析,当所述时序预测模型预测到当前GPU节点的故障风险大于预设风险阈值,或者接收到集群调度器发送的抢占预警信号时,触发任务迁移流程; 在所述任务迁移流程中,暂停当前GPU节点上的训练任务,触发最终操作,生成最终增量数据; 通过RDMA网络,将所述最终增量数据和多级存储系统的热备份中的最新增量数据传输到预先分配的目标健康GPU节点; 在目标健康GPU节点上,利用所述最终增量数据和热备份中的最新增量数据,重建训练任务的完整上下文状态,以恢复训练任务的执行状态,实现面向过程GPU的实时容错与任务迁移; 所述将所述多维度健康指标输入至时序预测模型中进行联合分析,当所述时序预测模型预测到当前GPU节点的故障风险大于预设风险阈值,或者接收到集群调度器发送的抢占预警信号时,触发任务迁移流程,包括: 将所述多维度健康指标按照时间序列组织为有序的数据序列,所述多维度健康指标包括硬件指标、软件指标和系统指标; 将所述有序的数据序列输入至基于Transformer架构的时序预测模型,通过所述时序预测模型分析所述有序的数据序列,输出表征当前GPU节点健康状态的评估结果; 当所述评估结果持续超过预设风险阈值的次数达到设定次数时,通过图神经网络分析当前GPU节点与其它GPU节点间的关联影响,以生成节点故障预警; 当通过集群调度器接口接收到资源抢占指令时,解析所述资源抢占指令并生成抢占预警信号; 在生成节点故障预警或抢占预警信号后,启动任务迁移准备流程,在所述任务迁移准备流程中向目标健康GPU节点发送资源预留请求,并在接收到目标健康GPU节点反馈的资源确认响应后,触发任务迁移流程。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人憨猴科技集团有限公司,其通讯地址为:100160 北京市丰台区南四环西路186号四区4号楼8层15室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励