中国移动通信集团北京有限公司;中国移动通信集团有限公司陈凯获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中国移动通信集团北京有限公司;中国移动通信集团有限公司申请的专利数据聚类方法、系统、电子设备及存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116910599B 。
龙图腾网通过国家知识产权局官网在2026-05-01发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310745326.6,技术领域涉及:G06F18/23213;该发明授权数据聚类方法、系统、电子设备及存储介质是由陈凯;章玮;刘列明;傅浩;欧洋洋;魏东月设计研发完成,并于2023-06-21向国家知识产权局提交的专利申请。
本数据聚类方法、系统、电子设备及存储介质在说明书摘要公布了:本发明涉及计算机技术领域,提供一种数据聚类方法、系统、电子设备及存储介质,该方法包括:基于聚类中心点结合用户特征初始化原始语料库,得到第一目标语料库;根据构建词频逆文档矩阵过程中词频统计所采用的分词,计算出与词频逆文档矩阵适配的相似度矩阵;将相似度矩阵输入至第一目标语料库中,计算每个查询词项与所有非查询词项的向量余弦相似度并降序排列,得到扩展词的推荐结果;结合推荐结果和用户信息,得到排序结果,基于排序结果对第一目标语料库进行聚类更新,得到第二目标语料库。本发明实现对同类型新增数据进行快速聚类,提高了聚类的效率和精度,同时,解决了因随机选取聚类中心,迭代次数较多的问题,提高数据聚类的聚类效果。
本发明授权数据聚类方法、系统、电子设备及存储介质在权利要求书中公布了:1.一种数据聚类方法,其特征在于,包括: 基于聚类中心点结合用户特征初始化原始语料库,得到第一目标语料库;所述聚类中心点为根据所述原始语料库中数据集的标记词语得到的Kmeans算法的中心点; 根据构建词频逆文档矩阵过程中词频统计所采用的分词,计算出与所述词频逆文档矩阵适配的相似度矩阵; 将所述相似度矩阵输入至所述第一目标语料库中,计算每个查询词项与所有非查询词项的向量余弦相似度并降序排列,得到扩展词的推荐结果; 结合所述推荐结果和用户信息,得到排序结果,并基于所述排序结果对所述第一目标语料库进行聚类更新,得到第二目标语料库; 所述基于聚类中心点结合用户特征初始化原始语料库,得到第一目标语料库,包括: 对所述原始语料库中的文本语料进行分词、去除停用词和词性标注,得到所述原始语料库的数据集; 通过TF-IDF算法提取出所述数据集中的关键词;所述关键词为所述数据集中出现次数多于预设次数的词语; 对所述关键词进行分词和标记,并将所述关键词标记的内容确定为Kmeans初始聚类的聚类中心点; 通过闵可夫斯基距离将所述用户特征对应的特征词归类到离其最近的聚类中心点的聚类中,对所述原始语料库进行初始化,得到所述第一目标语料库; 所述结合所述推荐结果和用户信息,得到排序结果,包括: 获取用户特征标签token权重和历史总活跃token权重; 基于时间因子、所述用户特征标签token权重、所述历史总活跃token权重和所述推荐结果,计算出各个扩展词的用户兴趣评分; 按照从高到低将每一个扩展词的用户兴趣评分进行排序,输出每一个扩展词的排序结果; 根据所述排序结果输出预设数量的目标扩展词,并接收基于所述目标扩展词返回的确定结果; 根据所述确定结果从所述目标扩展词中确定出所述排序结果。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国移动通信集团北京有限公司;中国移动通信集团有限公司,其通讯地址为:100007 北京市东城区东直门南大街7号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励