首页 期刊 信息与电脑 基于word2vec和CNN的短文本聚类研究 【正文】

基于word2vec和CNN的短文本聚类研究

作者:杨俊峰; 尹光花 中原工学院计算机学院; 河南郑州450007
cnn   word2vec   短文本聚类   特征提取  

摘要:文本特征提取对短文本聚类效果至关重要,针对传统的基于统计学习的特征提取方法仅停留在特征词的层面,无法表达文本上下文语义特征的问题。基于此,笔者提出了一种基于word2vec词向量和卷积神经网络(Convolutional Neural Networks,CNN)的文本特征提取方法用于短文本聚类,首先利用word2vec工具训练大规模语料库中的词语,以低维向量的形式表征,然后利用CNN提取文本的深层语义特征,得到能够用于聚类的文本特征向量。实验结果表明,该方法可以有效提升短文本聚类的准确性。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

学术咨询 免费咨询 杂志订阅