Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
专利交易 商标交易 积分商城 国际服务 IP管家助手 科技果 科技人才 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 恺恩泰(南京)科技有限公司林世琴获国家专利权

恺恩泰(南京)科技有限公司林世琴获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉恺恩泰(南京)科技有限公司申请的专利文本实体识别与数据结构化处理方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120893435B

龙图腾网通过国家知识产权局官网在2026-05-01发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511219241.X,技术领域涉及:G06F40/295;该发明授权文本实体识别与数据结构化处理方法及系统是由林世琴;陈晓冲设计研发完成,并于2025-08-28向国家知识产权局提交的专利申请。

文本实体识别与数据结构化处理方法及系统在说明书摘要公布了:本发明公开了文本实体识别与数据结构化处理方法及系统,属于数据处理技术领域,其具体包括:获取待处理医疗诊断文本数据,并生成查询脚本;通过该脚本抽取样例数据,将其输入双阶段实体识别模型进行实体识别与指标项提取,得到初步指标项集合,并判断是否满足预设结构化需求,若满足则将数据转化为结构化实体;根据该结构化实体确定数据类别,轮询后台病例库生成结构化指标结果集;从结构化指标结果集中抽取样本进行医学人员校验,根据校验结果修正结构化实体的指标项,确保了结构化实体的准确性和完整性。

本发明授权文本实体识别与数据结构化处理方法及系统在权利要求书中公布了:1.文本实体识别与数据结构化处理方法,其特征在于,包括: 步骤S1:获取待处理的医疗诊断文本数据,并生成针对不同医疗诊断文本数据类型的查询脚本; 步骤S2:通过查询脚本从待处理的医疗诊断文本数据中抽取样例数据; 步骤S3:将样例数据输入至双阶段实体识别模型中进行实体识别和实体关系抽取,并返回初步的指标项集合,同时,判断是否满足预设的结构化需求; 步骤S4:若满足预设的结构化需求,则得到结构化实体,根据得到的结构化实体,确定数据类别,针对不同数据类别轮询后台病例库,生成结构化指标结果集; 步骤S5:从结构化指标结果集中抽取样本进行医学人员校验,根据医学人员校验结果修正结构化实体的指标项; 所述步骤S1的具体步骤包括: S1.1:获取待处理的医疗诊断文本数据,并使用正则表达式进行预处理; S1.2:加载预训练好的大语言模型,并使用医疗领域的标注数据对其进行微调,将预处理后的医疗诊断文本数据输入至微调后的大语言模型中,并输出每个词的实体标签,从而得到带有实体标签的医疗诊断文本数据; S1.3:定义关系模板,通过遍历带有实体标签的医疗诊断文本数据匹配定义好的关系模板,抽取实体之间的关系,并为每个关系分配一个唯一的标识符,得到抽取的实体关系集合;所述实体关系集合包含关系类型、实体对和唯一标识符; S1.4:将抽取的实体关系集合转换为三元组形式,并为每个实体和关系定义属性,得到三元组表示的实体关系数据; S1.5:将得到的三元组表示的实体关系数据作为图的边,识别出的实体作为图的节点,并按照定义节点的属性和边的属性导入到图数据库中,形成医疗领域知识图谱; S1.6:分析医疗诊断文本数据处理的任务需求,根据任务需求,再次对预训练好的大语言模型进行进一步微调; S1.7:分析不同医疗诊断文本数据类型的结构特点,使用改进的词频-逆文档频率算法提取医疗诊断文本中的关键词,并利用进一步微调后的大语言模型对医疗诊断文本进行编码,获取医疗诊断文本的语义表示,同时,将提取的关键词和语义表示作为特征; S1.8:将提取的特征进行格式转换,并输入到进一步微调后的大语言模型中,通过其内部的神经网络结构进行计算和推理,同时,在输出层根据计算和推理的结果,生成初步的查询语句片段; S1.9:将生成的初步查询语句片段与医疗领域知识图谱进行匹配和推理,利用知识图谱中的实体和关系信息,对查询语句片段进行约束和修正; S1.10:将经过修正后的查询语句片段组合成完整的查询脚本; 所述步骤S3的具体步骤包括: S3.1:构建双阶段实体识别模型,并使用已有的标注医疗数据对双阶段实体识别模型进行训练,得到训练好的双阶段实体识别模型; S3.2:获取样例数据,并进行预处理; S3.3:将预处理后的样例数据输入到双阶段实体识别模型中; 在第一阶段,模型对输入的预处理后的样例数据进行基础临床实体识别,识别出基础实体,并输出对应的基础实体标签和位置信息;所述基础实体包括但不限于疾病名称、症状、检查项目; 在第二阶段,基于第一阶段识别出的基础实体,通过构建实体图,利用图神经网络学习实体间的关系特征,确定各实体之间的关联,并输出实体关系信息;所述实体关系信息包括但不限于疾病与症状的对应关系、治疗方案与疾病的关联; S3.4:将第一阶段的实体识别结果和第二阶段的关系抽取结果进行整合,形成初步的指标项集合; S3.5:设定结构化需求的标准,采用规则匹配方式将初步的指标项集合与预设的结构化需求进行匹配; S3.6:根据匹配结果,输出是否满足预设结构化需求的判断信息; 若满足结构化需求,则直接使用该指标项集合; 若不满足结构化需求,则对样例数据进行再处理或调整双阶段实体识别模型;所述再处理包括补充缺失信息、修正错误格式。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人恺恩泰(南京)科技有限公司,其通讯地址为:211800 江苏省南京市江北新区研创园华创路73号高新总部大厦C座9-13层;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。