摘要:针对传统的新词发现中,数据的稀疏性使一些低频新词无法识别等问题,提出一种对分词结果计算信息量且将深度学习模型BiLstm-CRF用于新词发现的方法,计算出的信息量用以表示词语内部粘合度和分离度,并加入人工规则进行过滤。BiLstm-CRF模型精度高,对词向量的依赖小,考虑到上下文信息。信息量和模型两部分的结合解决了大量人工序列标注问题,提高了低频新词的识别率。实验结果表明,该方法能有效提高了新词识别的准确率。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社
热门期刊服务
现代中西医结合 中西医结合肝病 浙江中西医结合 中西医结合研究 中西医结合 深圳中西医结合 中国中西医结合 世界中西医结合 中西医结合学报 中国中西医结合脾胃 中国中西医结合消化 中国中西医结合肾病相关文章
结合自身工作