北京汉王影研科技有限公司王荣刚获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京汉王影研科技有限公司申请的专利一种电子卷宗智能编目方法和计算机设备获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115690821B 。
龙图腾网通过国家知识产权局官网在2026-05-01发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211091185.2,技术领域涉及:G06V30/418;该发明授权一种电子卷宗智能编目方法和计算机设备是由王荣刚设计研发完成,并于2022-09-07向国家知识产权局提交的专利申请。
本一种电子卷宗智能编目方法和计算机设备在说明书摘要公布了:本申请公开了一种电子卷宗智能编目方法和计算机设备,方法包括获取待编目电子卷宗,并判断待编目电子卷宗的文件类型;对存储的图像中的单页图像进行OCR识别,对文字坐标点和文字样式进行版式解析得到标题分析结果;通过OCR识别结果和坐标样式标题进行版式解析编目;通过预定义规则编目进行针对不同业务场景的定制编目;通过自然语言处理算法进行命名实体提取,将命名实体提取的提取结果通过预先设定的拼接方式进行定义编目名与实体的拼接;不断循环上述过程,直到对存储的图像中的所有单页图像完成编目;通过本申请提供的智能编目方法,可将多样性材料编目的准确率提升至90%以上,同时不需要大量人工校验,能够减少维护优化成本,使分类效率提升。
本发明授权一种电子卷宗智能编目方法和计算机设备在权利要求书中公布了:1.一种电子卷宗智能编目方法,其特征在于,包括: 步骤S1,获取待编目电子卷宗,并判断所述待编目电子卷宗的文件类型;若所述待编目电子卷宗为图像文件,则直接将所述待编目电子卷宗进行存储,若所述待编目电子卷宗为版式文件,则将所述待编目电子卷宗逐页拆分为独立图像文件并进行存储; 步骤S2,对存储的图像中的单页图像进行OCR识别,并获取OCR识别结果;对文字坐标点和文字样式进行版式解析得到标题分析结果,所述标题分析结果包含当前单页图像的标题信息;其中,所述对文字坐标点和文字样式进行版式解析得到标题分析结果包括: 根据所述OCR识别结果,判断文字样式中是否存在字号比周围文字更大或者字体加粗的坐标点; 当判定存在字号比周围文字更大或者字体加粗的坐标点,获取该坐标点的文字及该坐标点左右延伸文字,并判断获取到的所有文字位置是否居中或最上方居中;若判定获取到的所有文字位置居中或最上方居中,则将获取到的所有文字解析为标题; 当判定不存在字号比周围文字更大或者字体加粗的坐标点,获取最上方的居中坐标点的文字及该坐标点左右延伸文字,并判断所述最上方的居中坐标点的下方文字的左右边距是否被占满;若判定所述最上方的居中坐标点的下方文字的左右边距被占满,则将获取到的所有文字解析为标题; 步骤S3,当对当前单页图像进行版式分析编目时,获取标题分析结果,并根据是否能获取到插图元素得到插图分析结果,然后按照步骤S31-S33进行编目: 步骤S31,判断当前单页图像中是否包含插图; 步骤S32,若判定当前单页图像中包含插图,判断插图与文字的占比是否达到预设占比阈值;若判定插图与文字的占比达到预设占比阈值,则对插图进行目标检测,在目标检测成功后将检测结果中置信度超过预设置信度阈值的检测结果所对应的编目名称,作为当前单页图像的定义编目名; 步骤S33,若判定当前单页图像中不包含插图,判断当前单页图像的标题是否满足标题规则;若判定标题满足标题规则,则将标题进行特殊符号过滤,并将过滤结果作为当前单页图像的定义编目名;若判定标题不满足标题规则,则查看上一单页图像的编目名是否存在结果,若存在结果则将上一单页图像的编目名作为当前单页图像的定义编目名,若不存在结果则将当前单页图像命名为其他作为当前单页图像的定义编目名; 步骤S4,当对当前单页图像进行预定义规则匹配编目时,按照步骤S41-S43进行编目: 步骤S41,获取预定义规则,将所述OCR识别结果和所述标题分析结果与所述预定义规则进行匹配; 步骤S42,若所述OCR识别结果和所述标题分析结果满足其中一条预定义规则的匹配条件,则将满足匹配条件的预定义规则的相应编目名结果作为当前单页图像的定义编目名; 步骤S43,若所述OCR识别结果和所述标题分析结果不满足任何一条预定义规则的匹配条件,则查看上一单页图像的编目名是否存在结果,若存在结果则将上一单页图像的编目名作为当前单页图像的定义编目名,若不存在结果则将当前单页图像命名为其他作为当前单页图像的定义编目名; 步骤S5,获取所述定义编目名和实体提取规则,并判断是否需要进行命名实体提取;若判定需要进行命名实体提取,使用自然语言处理算法进行命名实体提取,在命名实体提取完成后获取预先设定的拼接方式,将命名实体提取的提取结果通过所述预先设定的拼接方式进行定义编目名与实体的拼接,将拼接后的结果作为当前单页图像的最终编目名;若判定不需要进行命名实体提取,则直接将定义编目名作为当前单页图像的最终编目名; 步骤S6,不断循环执行步骤S2-S5,直到对存储的图像中的所有单页图像完成编目。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京汉王影研科技有限公司,其通讯地址为:100124 北京市朝阳区高碑店乡半壁店村惠河南街1129号8号楼一层1032;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励