首页 期刊 数据分析与知识发现 一种基于概念向量空间的文本相似度计算方法 【正文】

一种基于概念向量空间的文本相似度计算方法

作者:李琳; 李辉 安徽大学外语学院; 合肥230601; 中国科学技术大学电子工程与信息科学系; 合肥230027
文本相似度   词嵌入   依存句法分析   文本分类  

摘要:【目的】将文本建模为一个概念向量空间,提出一种该模型下的文本相似度计算方法。【方法】对文本进行依存句法分析,提取关键概念词,利用词嵌入方法构造表示文本的向量空间;提出一种向量空间之间的相似度定量刻画文本间的相似程度;采用标准测试集对短文本的相似度进行评测,并利用该相似度实现一种面向长文本的文本分类算法。【结果】实验结果表明定义在概念向量空间上的相似度可以有效评估文本间的语义相似性,在长文本的文档分类数据集上达到92%以上的分类准确率。【局限】该算法依赖于依存语法的分析效果和词嵌入向量的质量。【结论】将语言学知识与词嵌入技术有机结合,可以有效衡量文本间的相似度,具有较低的计算复杂度,能够广泛应用于文档分类和聚类、自动问答系统等应用。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

学术咨询 免费咨询 杂志订阅