摘要:互联网中出现的短文本内容短小,相互共享的词汇较少,因此在分类过程中容易出现大量的集外词,导致分类性能降低。鉴于此,提出了一种基于词矢量相似度的分类方法,首先利用无监督的方法对无标注数据进行训练得到词矢量,然后通过词矢量之间的相似度对测试集中出现的集外词进行扩展。通过与基线系统的对比表明,该方法的分类正确率均优于基线系统1%-2%,尤其是在训练数据较少的情况下,所提出的方法的正确率相对提高10%以上。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社
热门期刊服务
相关文章
影响因子:0.49
期刊级别:北大期刊
发行周期:月刊
期刊在线咨询,1-3天快速下单!
查看更多>
超1000杂志,价格优惠,正版保障!
一站式期刊推荐服务,客服一对一跟踪服务!