北京君正集成电路股份有限公司孔得平获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京君正集成电路股份有限公司申请的专利一种提高犬吠声识别率的方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117153167B 。
龙图腾网通过国家知识产权局官网在2026-05-08发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210570035.3,技术领域涉及:G10L17/26;该发明授权一种提高犬吠声识别率的方法是由孔得平设计研发完成,并于2022-05-24向国家知识产权局提交的专利申请。
本一种提高犬吠声识别率的方法在说明书摘要公布了:本发明提供一种提高犬吠声识别率的方法,包括:S1.收集犬吠音频,增加与识别设备的密切性;S2.长时静音消除;S3.增强音频泛化性;S4.添加音频实时流的缓存策略;S5.基于短时能量过滤近似无声段音频流;S6.设定音频流的滑动窗口机制。本申请方法就是将数据的预处理与策略机制判断共同致力于犬吠音频的识别中,巧妙地分析影响犬吠音频识别的统一特性,在不影响原检测目标召回率和精确度的情况下进一步提高了犬吠音频的识别率和误检率。
本发明授权一种提高犬吠声识别率的方法在权利要求书中公布了:1.一种提高犬吠声识别率的方法,其特征在于,所述方法包括以下步骤: S1.收集犬吠音频,增加与识别设备的密切性: 收集音频数据,其中犬吠为正样本,背景噪音为负样本; 采用设备端转录犬吠正样本音频的方法将原犬吠音频和转录后的犬吠音频同时作为训练样本,增强音频与识别检测设备的强关联性; S2.长时静音消除: 在犬吠音频样本中消除静音占比大于犬吠声的音频或者犬吠声总时长远小于静音时长的音频流,即在每次进入模型检测的音频内静音时长:犬吠声时长≤1:4,从而防止静音占比大的音频作为正样本进入模型训练; S3.增强音频泛化性: 在音频预处理端增加随机缩放音频流音量、时间平移、音高以及音速,即在音频进入网络训练前,提前设定随机种子变量,达到对部分音频随机地进行预处理,从而更大程度模拟现实生活场景下的犬吠声,使其能够在音频识别中不受识别犬吠声的设备与犬吠时的距离的影响; S4.添加音频实时流的缓存策略: 增加对待检测音频的缓存策略,所述缓存策略从算法层面来讲:即申请一块内存空间作为待检测实时音频流的缓存空间,若进入识别模型的音频时长为X,设备识别该音频执行时间为Y,则在没有其他AI应用的时候,缓存空间大小需满足最大可以存放n*X+Y时长的音频流,其中n为整数,取1,2,3,......使实时音频流缓存至该空间,方便后期与滑动窗口机制共同作用保证实时音频流进入模型检测的完整性; S5.基于短时能量过滤近似无声段音频流: 针对非犬吠声的低能量音频流误检,采用为短时能量设置阈值的方法对低能量音频流进行识别时进行过滤;如果某部分音频短时能量趋近于零时,则这部分音频可以认为近似无声段,从而可降低实际生活中的所述近似无声段的音频流触发犬吠声误识; S6.设定音频流的滑动窗口机制: 对待检测识别的实时音频流在步骤S4保存实时音频流完整性的作用下添加滑动窗口机制,使得在进入音频段检测识别时,分别处于相邻两段音频内的犬吠声的音频流能够被完整检测,即处于未加滑动窗口策略和所述机制时相邻两次识别的音频之间由于设备识别花费的时间内漏掉的音频流被检测。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京君正集成电路股份有限公司,其通讯地址为:100193 北京市海淀区西北旺东路10号院东区14号楼;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励