广东知业科技有限公司肖波获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉广东知业科技有限公司申请的专利用于AI大模型预训练的异构数据融合装置、方法及介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120974435B 。
龙图腾网通过国家知识产权局官网在2026-05-01发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511488848.8,技术领域涉及:G06F18/25;该发明授权用于AI大模型预训练的异构数据融合装置、方法及介质是由肖波;张茂森;梁卓山;黄秋明;邓丹儿设计研发完成,并于2025-10-17向国家知识产权局提交的专利申请。
本用于AI大模型预训练的异构数据融合装置、方法及介质在说明书摘要公布了:本申请公开了一种用于AI大模型预训练的异构数据融合装置、方法及介质,涉及人工智能技术领域。该异构数据融合装置包括采集模块、处理模块和输出模块,处理模块包括识别解析单元和对齐评估单元,输出模块包括填充单元和索引单元;识别解析单元用于识别并解析不同模态的异构数据,获得各标准数据对象,对齐评估单元用于将各标准数据对象统一语义向量,并计算多模态数据对的质量评分;填充单元用于将多模态数据对填充至语义驱动模板的对应槽位,并向目标样本附加标签和质量评分,索引单元用于将目标样本封装为标准数据结构,并构建目标样本的多维度索引。采用本申请装置能够统一标准,并且准确融合多模态数据,提升了处理效率和预训练数据的质量。
本发明授权用于AI大模型预训练的异构数据融合装置、方法及介质在权利要求书中公布了:1.一种用于AI大模型预训练的异构数据融合装置,其特征在于,所述异构数据融合装置包括依次连接的采集模块、处理模块以及输出模块; 所述采集模块用于采集不同来源的异构数据,并向所述异构数据附加数据元信息,所述异构数据包括文本数据、图像数据和音频数据中的至少一种,所述数据元信息包括文件后缀、编码格式和头部二进制签名; 所述处理模块包括识别解析单元和对齐评估单元;所述识别解析单元用于基于所述数据元信息识别所述异构数据的模态,并分别解析不同模态的所述异构数据,获得各标准数据对象;所述对齐评估单元用于将所述各标准数据对象统一语义向量,获得多模态数据对,并计算所述多模态数据对的质量评分; 所述输出模块包括填充单元和索引单元;所述填充单元用于将所述多模态数据对填充至语义驱动模板的对应槽位,获得目标样本,并向所述目标样本附加标签和所述质量评分,所述标签包括模态标签和语义标签;所述索引单元用于将所述目标样本封装为标准数据结构,并按照所述标签和所述质量评分构建所述目标样本的多维度索引; 其中,在基于所述数据元信息识别所述异构数据的模态时,所述识别解析单元具体用于利用多通道模态判别网络的特征提取层中各子通道分别提取所述异构数据的单一模态表征向量,所述各子通道包括文本子通道、图像子通道、音频子通道和结构化子通道,并利用所述多通道模态判别网络的注意力增强层调整所述各子通道的特征权重,获得混合模态表征向量;以及,利用所述多通道模态判别网络的判别编码层计算所述混合模态表征向量对应的模态概率分布,并将概率大于或者等于预设门限值的模态作为所述异构数据的模态。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人广东知业科技有限公司,其通讯地址为:519000 广东省珠海市高新区唐家湾镇金玉路59号13层1301室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励