Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
专利交易 商标交易 积分商城 国际服务 IP管家助手 科技果 科技人才 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 普望(上海)信息科技有限公司蒋喆获国家专利权

普望(上海)信息科技有限公司蒋喆获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉普望(上海)信息科技有限公司申请的专利用于知识蒸馏的模型数据样本智能筛选方法和系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121009955B

龙图腾网通过国家知识产权局官网在2026-05-01发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510920905.9,技术领域涉及:G06N3/096;该发明授权用于知识蒸馏的模型数据样本智能筛选方法和系统是由蒋喆;巩晓宇;田威设计研发完成,并于2025-07-04向国家知识产权局提交的专利申请。

用于知识蒸馏的模型数据样本智能筛选方法和系统在说明书摘要公布了:本发明涉及模型训练样本筛选领域,用于解决模型训练过程中对数据无法进行有效筛选,导致训练成本提升以及训练效果下降的问题,具体为用于知识蒸馏的模型数据样本智能筛选方法和系统;本发明在对模型进行训练时,将用于训练的基础数据进行多级筛选,从而充分的去除对训练完全无效的数据、错误的干扰数据以及高重复性的同质数据,同时对大量数据进行二分化处理,能够高效的对同质化数据进行跳跃选取,既保证了同质化数据的去除率又降低了去除同质化数据时的工作量,保证了用于模型训练的数据能够对模型训练起到优化作用,同时减少错误数据的负面干扰,还能够避免大量的同质化数据作出重复的训练,提高数据质量,降低训练成本。

本发明授权用于知识蒸馏的模型数据样本智能筛选方法和系统在权利要求书中公布了:1.用于知识蒸馏的模型数据样本智能筛选系统,其特征在于,包括数据样本初筛模块,所述数据样本初筛模块用于对完全无效的样本进行筛选,得到二级样本数据库; 数据干扰清洗模块,所述数据干扰清洗模块将二级样本数据库进行可信度评估,根据可信度评估进行选取,得到一次结果样本; 关联性评估模块,所述关联性评估模块对一次结果样本进行关联性评估,通过关联性评估对数据样本的可信度进行修正,得到样本应用池; 样本应用选取模块,所述样本应用选取模块对样本应用池进行样本重复性的验证,根据二分法对高重复性样本群体进行跳跃选取,得到最终应用样本; 覆盖校验模块,所述覆盖校验模块对最终应用样本进行记录,并在后续训练中进行对比,排除过高相似度的样本; 所述数据样本初筛模块进行筛选的步骤为: 样本筛选条件对比:若数据样本的数据类型符合样本筛选条件中的样本数据类型,则进行保留,否则进行剔除,其中样本数据类型分为文档数据、图形数据以及声音数据; 样本领域分布对比:若数据样本的样本领域符合样本筛选条件中的样本领域,则进行保留,否则进行剔除; 样本特征分布对比:若样本特征分布与设定的预设样本筛选条件至少存在任意一项重合,则进行保留,若不存在任意重合,则记录为完全无效并进行剔除; 所述数据干扰清洗模块能够连接至干扰特征库,干扰特征库内储存有错误的数据特征,所述数据干扰清洗模块获取参与对比的每个数据样本中的数据特征点总数量,并将数据特征点与干扰特征库中的错误数据特征进行对比,得到重合的数据特征点数量在数据特征点总数中所占的比例,记录为错误重合度,将错误重合度的倒数记录为可信度; 所述数据干扰清洗模块将可信度与可信度阈值进行对比,根据对比结果记录为评估通过或评估未通过,所述数据干扰清洗模块将评估通过的数据样本记录一次结果样本; 所述关联性评估模块将数据来源接近的数据样本记录为一个高关联性样本集合,所述关联性评估模块获取一个高关联性样本集合中的每个数据样本的可信度,并对高关联性样本集合中的可信度进行算术平均,得到可信度均值,所述关联性评估模块将高关联性样本集合中的数据样本的可信度与可信度均值进行拟合处理,得到修正后的可信度; 所述关联性评估模块将修正后的可信度与修正阈值进行对比,对数据进行保留或剔除,并将所有保留的数据样本记录为样本应用池; 所述样本应用选取模块进行重复性验证的过程为: 将样本应用池划进行逐级划分,每次划分得到两组子集,在每次划分时,将同一母集划分而成的两个子集的相似度结果与设定的阈值进行对比,若相似度结果位于设定的区间内,则判定样本相似,不再进行划分,同时将两组对应的子数据集记录为高重复率样本,若不在设定的区间内,则判定样本不相似,继续进行划分,最终划分到第i级子数据池时,将所有未被记录为高重复率样本的子数据池记录为正常数据; 所述样本应用池在获取高重复率样本时,将高重复率样本内的一个子数据池记录为应用样本,另一个子数据池则记录为跳过样本; 所述样本应用池将所有高重复率样本中的应用样本和正常数据进行聚合,得到最终应用样本; 所述覆盖校验模块在模型将最终应用样本用于训练时,对最终应用样本进行记录,得到历史应用样本,并在后续每次获取新的最终应用样本时,均将新的最终应用样本与记录的历史应用样本进行对抗训练,若对抗训练的相似度位于设定的区间内,则判定数据无效,不进行训练,同时生成数据重复提醒,若相似度超出设定的区间,则判定数据有效,正常进行模型训练; 还包括用于知识蒸馏的模型数据样本智能筛选方法,包括以下步骤: 步骤一:接入全样本数据库,根据预设的条件对样本进行筛选,去除完全无效的样本; 步骤二:将步骤一中剩余的样本与设定的干扰特征库进行比对,得到样本一次可信度评估结果; 步骤三:对步骤二中得到样本获取关联性特征,根据关联性特征进行可信度聚集,得到样本二次可信度评估结果; 步骤四:根据设定的标准对步骤三中的样本进行选取,得到样本应用池; 步骤五:对样本应用池中的样本进行重复性验证,通过重复性验证对重复率过高的样本进行跳跃选取; 步骤六:将跳跃选取后的样本作为最终应用样本,并对最终应用样本进行记录; 步骤七:在模型训练完成后,重复对步骤五中的样本进行跳跃选取,同时避开步骤六中所记录的最终应用样本。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人普望(上海)信息科技有限公司,其通讯地址为:201000 上海市奉贤区奉浦大道1599号2号楼1层A021室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。