信阳农林学院吴锋获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉信阳农林学院申请的专利一种基于大数据的信息处理方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116070620B 。
龙图腾网通过国家知识产权局官网在2026-05-01发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211728829.4,技术领域涉及:G06F40/211;该发明授权一种基于大数据的信息处理方法及系统是由吴锋;邱宜宁;沈子雷;吴金凤;马俊;张彪设计研发完成,并于2022-12-30向国家知识产权局提交的专利申请。
本一种基于大数据的信息处理方法及系统在说明书摘要公布了:本发明属于大数据信息技术领域,公开了一种基于大数据的信息处理方法及系统:对待检测文本的语句进行分词获得第二语句集合,使用敏感词库对第二语句集合进行敏感词过滤,获取第一候选敏感语句集合和第三语句集合;计算第一候选敏感语句集合中的语句与敏感语句库中的语句的语句相似度,最大相似度大于等于第一阈值的语句为敏感语句;对第三语句集合中的语句的词素进行重组,使用敏感词库对重组后的语句进行敏感词过滤获得候选敏感语句,计算候选敏感语句与敏感语句库中的语句的语句相似度,最大相似度大于等于TH1时将语句确定为敏感语句;最大相似度小于TH1但大于等于TH2时,交由人工复查。本发明提高了敏感信息的检出率和准确率。
本发明授权一种基于大数据的信息处理方法及系统在权利要求书中公布了:1.一种基于大数据的信息处理方法,其特征在于,包括如下步骤: 步骤1、获取目标文本,对目标文本进行预处理获取待检测文本; 步骤2、提取待检测文本数据中的语句,获得语句集合,对语句集合中的语句进行分词获得第二语句集合,使用敏感词库对第二语句集合进行敏感词过滤,获取第一候选敏感语句集合,敏感语句是包含敏感词的语句; 步骤3、提取第一候选敏感语句集合中的第i个候选敏感语句,计算第i个候选敏感语句与敏感语句库中包含相同敏感词的语句的语句相似度,当最大相似度SIM1大于等于第一阈值TH1时,将第i个候选敏感语句确定为待检测文本的敏感语句; 步骤4、基于语句集合过滤掉第一候选敏感语句集合中的敏感语句,获得第三语句集合; 步骤5、以词素为单位对第三语句集合中的语句进行分词获得第四语句集合,获取第四语句集合中的第j个语句,将第j个语句中的词素重组成N个新语句,使用敏感词库对N个新语句进行敏感词过滤,获取第j个候选敏感语句,计算第j个候选敏感语句与敏感语句库中包含相同敏感词的语句的语句相似度,当最大相似度SIM2满足SIM2≥TH1时,将第j个语句确定为待检测文本的敏感语句;当最大相似度SIM2满足TH2≤SIM2<TH1时,将第j个语句交由人工复查,确定第j个语句是否为敏感语句; 将第j个语句中的词素重组成N个新语句,包括: 步骤51、提取第j个语句中的词素,判断词素中是否包含别词,若包含,则进入步骤52,若不包含,则进入步骤53,别词为未包含在组句词典中的词; 步骤52、将别词之前的词素输入到第二训练模型,获取第二训练模型输出的单词中出现概率高于预设值A的A1个单词,将A1个单词作为别词的候选单词,使用候选单词替换词素中的别词,生成A1组新词素,其中,第二训练模型为对输入的词素输出要组句的下一个组句单词和组句单词的出现概率; 步骤53、将要组句的词素输入到组句训练模型生成B1个第一新语句,分别计算B1个第一新语句的句子似然值,当句子似然值高于预设值B时将第一新语句作为候选新语句,其中,组句训练模型为对输入的词素输出句子和句子中每个词素的出现概率,句子似然值为句子中每个词素的出现概率的乘积; 步骤54、若候选新语句中包含候选单词,则使用别词替换候选单词生成新语句。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人信阳农林学院,其通讯地址为:464000 河南省信阳市羊山新区新24大街与北环路交叉口西北;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励