电信科学技术第十研究所有限公司乔海洋获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉电信科学技术第十研究所有限公司申请的专利针对文本数据的实体及关系串联式提取方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115630647B 。
龙图腾网通过国家知识产权局官网在2026-04-24发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211328790.7,技术领域涉及:G06F40/295;该发明授权针对文本数据的实体及关系串联式提取方法是由乔海洋;白洁;张雨晨;刘红英;马国梁;尚凡华设计研发完成,并于2022-10-27向国家知识产权局提交的专利申请。
本针对文本数据的实体及关系串联式提取方法在说明书摘要公布了:本发明提供了一种针对文本数据的实体及关系串联式提取方法。首先对文本进行预处理,并提取其词向量,然后,将词向量输入文本实体提取模型BiLSTM‑softmax,得到带实体对的文本,接着,对存在歧义的文本进行消歧消解处理,最后,将带实体对的文本输入到关系判别模型,再经关系分类模型得到实体的关系类别。本发明能够针对文本数据进行实体及关系的串联式提取,同时具有长文本处理、实体消歧和指代消解丰富语义的功能,获得了较好的实体提取和关系提取结果。
本发明授权针对文本数据的实体及关系串联式提取方法在权利要求书中公布了:1.一种针对文本数据的实体及关系串联式提取方法,其特征在于步骤如下: 步骤1:输入文本,如果文本字符数大于500,以500个字符为长度进行分割,得到若干文本; 步骤2:将分割后的文本分别输入词向量模型,得到文本对应的词向量;所述的词向量模型是指基于收集的中、英文语料库,并对词向量进行编码后,采用word2vec方法训练后得到词向量模型,中英词向量模型均为此方法训练; 步骤3:将文本词向量输入到文本实体提取模型进行实体提取,输出带实体对的文本;所述的文本实体提取模型是指在带有位置信息的序列数据集上训练后的BiLSTM-softmax实体提取模型,其中,BiLSTM-softmax实体提取模型包括双向LSTM层和Softmax层,是用softmax层替换原BiLSTM-CRF模型的CRF层后的改进模型; 步骤4:判断文本是否存在歧义,如果不存在,转至步骤5;否则,将文本输入到实体消歧模型进行消歧处理,再经训练好的实体消解模型进行指代消解处理,得到消歧消解后的文本,转至步骤5;所述的实体消歧模型是指在中文短文文本ChineseShortText数据集上训练后的实体消歧模型,其中,实体消歧模型采用Bert-CNN网络架构,包括Bert层、卷积层和Softmax层;所述的实体消解模型是指在IDC公司标注的开源数据集ontonotes5.0上训练后的SpanBert实体消解模型,其中,SpanBert实体消解模型包括transformer层、全连接层、Softmax层; 步骤5:将步骤4得到的无歧义或消歧消解后的文本输入到实体关系判别模型,再经实体关系分类模型得到实体的关系类别;所述的实体关系判别模型是指在带有实体位置信息以及实体类别信息的序列数据集上训练后的BiLSTM-Attention模型,其中,BiLSTM-Attention模型包括BiLSTM层、Attention层;所述的实体关系分类模型是指在仅包含实体位置信息的序列数据集上训练后的BiLSTM-Attention模型。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人电信科学技术第十研究所有限公司,其通讯地址为:710061 陕西省西安市雁塔区雁塔西路6号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励