首页 期刊 计算机工程与应用 基于词嵌入的书面语篇多层次差异探究 【正文】

基于词嵌入的书面语篇多层次差异探究

作者:张学敬; 吕学强; 北京信息科技大学网络文化与数字传播北京市重点实验室; 北京100101; 北京信息科学与技术国家研究中心; 北京100084; 清华大学信息技术研究院语音和语言技术中心; 北京100084
独白语篇   对话语篇   词嵌入   多层次差异分析  

摘要:书面语篇包含有独白语篇和对话语篇两种类型,而独白语篇和对话语篇具有不同的描述功能和用词特点,这对基于这些语篇的不同分析任务计算建模提出了新的挑战。基于现有两种语篇标注库,采用统计分析方法,对两类语篇的不同层次功能结构差异性进行了定量分析。基于三种不同类型语料文本中自动训练得到的不同词嵌入向量,以字向量的角度初步分析了两类语篇在用词方面的不同分布特点。在此基础上针对两类语篇的4个典型分析任务,研究了不同词嵌入对深度学习模型分析性能的影响效果。实验结果表明,不同的词嵌入在不同语篇分析任务的表现能力存在明显差异,从而验证了独白语篇和对话语篇的多层次差异。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

学术咨询 免费咨询 杂志订阅