首页 期刊 山东大学学报·理学版 基于词矢量相似度的短文本分类 【正文】

基于词矢量相似度的短文本分类

作者:马成龙 姜亚松 李艳玲 张艳 颜永红 中国科学院声学研究所 北京100190
短文本分类   词矢量相似度   集外词  

摘要:互联网中出现的短文本内容短小,相互共享的词汇较少,因此在分类过程中容易出现大量的集外词,导致分类性能降低。鉴于此,提出了一种基于词矢量相似度的分类方法,首先利用无监督的方法对无标注数据进行训练得到词矢量,然后通过词矢量之间的相似度对测试集中出现的集外词进行扩展。通过与基线系统的对比表明,该方法的分类正确率均优于基线系统1%-2%,尤其是在训练数据较少的情况下,所提出的方法的正确率相对提高10%以上。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

学术咨询 免费咨询 杂志订阅