首页 期刊 计算机产品与流通 基于深度学习算法的中文分词的研究 【正文】

基于深度学习算法的中文分词的研究

作者:薛源 华北电力大学
深度学习   lstm   crf   中文分词   word2vec  

摘要:传统机器学习分词方法大都依赖人工设计的特征工程,需要大量的工作来验证这些特征的有效性,显然工作效率比较低。基于神经网络的深度学习算法逐渐兴起之后,使得自动学习文本特征成为一种可能。基于长短时记忆神经网络(LSTM)与条件随机场模型(CRF)相结合的中文自动分词模型是本文主要阐述内容。首先,利用工具Word2Vec从未标记的语料库中训练出字嵌入向量;其次,将上一步训练得到的字向量输入到LSTM并计算出其上下文表示向量;最后,再将第二步得到的上下文表示向量作为特征应用到CRF判别模型层中进行有监督的中文分词。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

学术咨询 免费咨询 杂志订阅