首页 期刊 计算机工程与设计 基于词向量和增量聚类的短文本聚类算法 【正文】

基于词向量和增量聚类的短文本聚类算法

作者:杨波; 杨文忠; 殷亚博; 何雪琴; 袁婷婷; 刘泽洋 新疆大学软件学院; 新疆乌鲁木齐830046; 新疆大学信息科学与工程学院; 新疆乌鲁木齐830046
短文本   词向量   文本表示   空间金字塔池化   增量聚类  

摘要:由于微博短文本的高维稀疏和传统Single-Pass聚类算法对文本数据顺序敏感等问题,导致短文本聚类准确率较低。针对上述问题提出一种基于词向量和增量聚类的短文本聚类算法(improved single-pass algorithm based on word embedding,ISWE)。通过词向量模型得到文本的词向量矩阵,利用金字塔池化(spatial pyramid pooling,SPP)策略对文本词向量矩阵进行处理得到文本表示,使用改进的Single-Pass算法进行微博短文本聚类。实验结果表明,使用SPP策略的文本表示使聚类准确率明显提高,ISWE算法相较于传统的Single-Pass算法有更高的准确率和调整兰德系数,验证了其有效性和准确性。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

学术咨询 免费咨询 杂志订阅