首页 期刊 计算机工程与应用 无池化层卷积神经网络的中文分词方法 【正文】

无池化层卷积神经网络的中文分词方法

作者:涂文博; 袁贞明; 俞凯 杭州师范大学信息工程学院; 杭州311121; 移动健康管理系统教育部工程研究中心; 杭州311121
自然语言处理   中文分词   卷积神经网络   字向量  

摘要:在中文信息处理中,分词是一个十分常见且关键的任务。很多中文自然语言处理的任务都需要先进行分词,再根据分割后的单词完成后续任务。近来,越来越多的中文分词采用机器学习和深度学习方法。然而,大多数模型都不同程度的有模型过于复杂、过于依赖人工处理特征、对未登录词表现欠佳等缺陷。提出一种基于卷积神经网络(Convolutional Neural Networks,CNN)的中文分词模型——PCNN(Pure CNN)模型,该模型使用基于字向量上下文窗口的方式对字进行标签分类,具有结构简单、不依赖人工处理、稳定性好、准确率高等优点。考虑到分布式字向量本身的特性,在PCNN模型中不需要卷积的池化(Pooling)操作,卷积层提取的数据特征得到保留,模型训练速度获得较大提升。实验结果表明,在公开的数据集上,模型的准确率达到当前主流神经网络模型的表现水准,同时在对比实验中也验证了无池化层(Pooling Layer)的网络模型要优于有池化层的网络模型。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

学术咨询 免费咨询 杂志订阅