摘要:文本分类是信息检索、机器问答的基础性任务,是自然语言理解的一项重要语义任务。本文提出了一种基于语义强化和特征融合的(LAC)分类模型。该模型首先将Word2vec嵌入的词向量输入LSTM进行句子语义的提取,然后将提取的语义特征输入Attention层进行特征的强化,同时用卷积层提取文本的局部特征,其次把强化的语义特征和利用卷积层提取的局部特征进行融合,最后经池化层对特征进行降维,并将经池化后的特征向量输入到全连接层,引入Dropout防止过拟合,得到最终的分类结果。由于CNN提取特征时存在忽略上下文信息的弊端,所以提出用LATM提取上下文信息,然后进行特征的融合的方法;另外,由于LSTM在捕获句子信息时会因为距离过长而出现的信息遗漏现象,所以提出将Attention作用于LSTM。通过实验表明,本文提出的模型比单独的CNN模型、以及先用LSTM提取语义信息,在进行局部特征提取的LSTM-CNN模型的效果更好。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社