西安理工大学李军怀获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉西安理工大学申请的专利面向装备制造的多数据链集成与融合知识图谱构建方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116805010B 。
龙图腾网通过国家知识产权局官网在2026-05-01发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310559702.2,技术领域涉及:G06F16/36;该发明授权面向装备制造的多数据链集成与融合知识图谱构建方法是由李军怀;权航博;王怀军;曹霆;崔颖安设计研发完成,并于2023-05-18向国家知识产权局提交的专利申请。
本面向装备制造的多数据链集成与融合知识图谱构建方法在说明书摘要公布了:本发明公开了一种面向装备制造的多数据链集成与融合知识图谱构建方法,首先收集装备制造领域数据;进行预处理,并分为结构化关系型数据与非结构化文本数据;将结构化数据语料进行处理,并导入Neo4j图形数据库存储;将非结构化文本数据使用深度学习进行实体抽取和关系抽取;将抽取结果整理并导入Neo4j图形数据库,并在Neo4j图形数据库中对知识图谱进行初步处理,在进行知识图谱导出;将导出的知识图谱数据输入实体对齐模型,进行实体对齐任务训练。本发明解决了现有技术中存在构建的知识图谱数据不完整、噪声大的问题。
本发明授权面向装备制造的多数据链集成与融合知识图谱构建方法在权利要求书中公布了:1.面向装备制造的多数据链集成与融合知识图谱构建方法,其特征在于,具体按照以下步骤实施: 步骤1、收集装备制造领域数据; 步骤2、将数据预处理后分为结构化关系型数据与非结构化文本数据; 步骤3、将结构化数据语料进行处理,并导入Neo4j图形数据库存储; 步骤4、将非结构化文本数据使用深度学习进行实体抽取和关系抽取; 所述步骤4中实体抽取具体按照以下步骤实施: 步骤4.1、将步骤2中得到的非结构化文本数据中每个句子句首位置添加开始标识[CLS],句尾添加结束标识[SEP],并根据步骤2得到的非结构化文本数据微调ALBERT模型后面的连接参数,AlBERT模型的内部训练参数保持不变,得到微调的ALBERT模型; 步骤4.2、对于步骤2得到的非结构化文本数据采用BIO标注模式进行实体标注,并将标注好的非结构化文本数据分为训练集和验证集,输入到步骤4.1中所得到的ALBERT模型中,获得词向量; 步骤4.3、将步骤4.2得到的词向量作为双向门控循环单元BGRU的输入,使用注意力机制获得每个词在不同标签上的加权得分,使用CRF条件随机场对标签序列进行限制,减少错误序列,使用Vuterbi算法求解最优路径,获得得分最高的标签,条件随机场CRF判别计算过程如下: 1 2 其中,为输入文本序列,为实体对应标签,为综合评估分数,为条件随机场CRF第时刻的隐藏状态,表示CRF隐藏状态为时BGRU层输出的发射分数矩阵,为通过CRF学习获得的从隐藏状态到的转移矩阵,为标签与输入序列的对应概率,表示所有可能的标签序列; 步骤4.4、根据步骤2得到的结构化关系型数据,构造装备制造数据链实体词典,并将词典和步骤2获得的非结构化文本数据作为输入,重复步骤4.2、步骤4.3,得到实体抽取结果,并将抽取中ALBERT所输出的词向量结果进行保存; 所述步骤4中关系抽取具体按照以下步骤实施: 步骤a、读取所述步骤4.4获得的文本词向量,使用高斯图生成器GaussianGraphGenerator利用文本词向量作为初始特征构造潜在有向多视图,模拟词间关系; 步骤b、对步骤a构建的有向多视图使用密集连接图卷积网络DCGCN提取深层图特征,然后使用动态时间规整池化DTWPool对DCGCN生成的图结构进行稀疏,DTWPool的视图注意力计算公式如下所示: 3 其中,是计算得到的在SoftMax激活之前的注意力权重,为激活函数,是第m个视图上第i个节点和第j个节点之间的邻接矩阵,为节点j的初始节点表示,和是池化操作中可训练权重和偏置; 步骤c、重复步骤b三次,得到最大池化的神经网络计算图表示的池化后最终图K,将开始标识[CLS]的向量表示与计算结果拼接,结果输入至Softmax分类器,得到关系抽取结果; 步骤5,将抽取结果整理并导入Neo4j图形数据库; 所述步骤5具体如下: 步骤5.1、根据步骤4.3与步骤c的抽取结果构建三元组,将三元组转化为csv格式,并使用Neo4j图形数据库提供的APOC插件进行导入,在导入知识图谱时,根据三元组的文本抽取来源,若步骤3中根据结构化关系型数据已导入的知识图谱中有与抽取整理得到的三元组来源有相对应的知识图谱标签,则将三元组添加至同一个知识图谱中,反之,则选择创建新的知识图谱标签导入,生成新的知识图谱; 步骤5.2、在Neo4j数据库中,使用Cypher语句对同一对节点间的重复关系,与其他节点不存在关系的节点冗余信息进行删除,并将整理后的知识图谱导出为三元组; 步骤6,将导出的知识图谱数据输入实体对齐模型,进行实体对齐训练; 所述步骤6具体如下: 步骤6.1、从步骤5.2导出的知识图谱中选择待对齐的两个知识图谱、,需要对齐的知识图谱应存在部分知识相关; 步骤6.2、将步骤6.1选择的知识图谱、送入改进的图卷积网络GCN模型中获得实体的嵌入表示,改进的图卷积网络GCN模型包括三层堆叠的GCN层,并在GCN各层间使用HighwayNetwork降低累计噪声,将、作为输入,每层具体工作计算方式为: 4 其中,和为变换门的权重矩阵与偏置向量,为第层GCN的输入,通过堆叠的GCN网络聚合高阶的领域信息,在第三层的输出经过ReLU激活函数,获得知识图谱嵌入表示; 步骤6.3、对步骤6.2获得的知识图谱、的嵌入表示选择候选实体,在中对中实体可能的对齐候选实体集进行采样,再计算与候选实体集中实体节点子图的相似度,对中某实体被采样为候选实体的概率计算方式为: 5 其中,和为实体和实体的嵌入表示,为实体被采样为实体的候选实体的概率,表示求向量的L1范数; 步骤6.4、将节点的子图作为图匹配网络的输入,评估中实体的邻居节点与其候选实体集中每个候选节点的一跳邻居节点的匹配度,对与的差值进行使用注意力机制加权求和,得到的匹配向量表示,计算方式为: 6 7 其中,和分别是实体和待对齐实体的一个邻居节点,是注意力权重,是的匹配向量,用于测量与候选实体节点子图距离最近的邻居节点的差别,和是GCN输出的和的嵌入表示; 然后将其与GCN中的输出嵌入表示进行拼接得到邻居节点的向量表示; 步骤6.5、将步骤6.4中获得的所有的邻居表示使用权重矩阵进行聚合,并与GCN中的实体嵌入拼接得到融合邻域信息的向量表示; 步骤6.6、对、中所有节点通过步骤6.4、6.5获得节点融合邻域信息的向量表示,通过计算待预测实体对之间的距离并进行排序给出实体对齐结果; 步骤7,利用步骤6实体对齐的结果,通过不同知识图谱间的相互信息补充,对知识图谱进行丰富,并将新增的知识导入Neo4j图形数据库中。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人西安理工大学,其通讯地址为:710048 陕西省西安市碑林区金花南路5号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励