首页 期刊 计算机应用研究 一种基于双向LSTM的联合学习的中文分词方法 【正文】

一种基于双向LSTM的联合学习的中文分词方法

作者:章登义; 胡思; 徐爱萍 武汉大学计算机学院; 武汉430072
中文分词   大规模语料库   联合学习   双向长短时记忆模型  

摘要:针对现有的基于深度学习的神经网络模型通常都是对单一的语料库进行训练学习,提出了一种大规模的多语料库联合学习的中文分词方法。语料库分别为简体中文数据集(PKU、MSRA、CTB6)和繁体中文数据集(CITYU、AS),每一个数据集输入语句的句首和句尾分别添加一对标志符。应用BLSTM(双向长短时记忆模型)和CRF(条件随机场模型)对数据集进行单独训练和多语料库共同训练的实验,结果表明大规模的多语料库共同学习训练能取得良好的分词效果。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

学术咨询 免费咨询 杂志订阅