首页 期刊 科技广场 基于向量空间模型的文本相似度计算方法 【正文】

基于向量空间模型的文本相似度计算方法

作者:王嘉旸; 杨丽萍; 闫天伟 江西农业大学软件学院; 江西南昌330045; 南昌大学信息工程学院; 江西南昌330031
向量空间模型   文本相似度   特征提取   互信息  

摘要:文本的向量空间模型是把文本量化为空间里的向量,文本相似度的计算即对向量相似性的计算。本文通过分析传统的基于向量空间模型(VSM)文本相似度计算算法存在的不足,提出一种改进的文本相似度计算算法。改进算法充分考虑到了文本间向量空间模型相似度比较忽略了文本长度的缺点,引入文本长度参数,并在基于互信息的特征词抽取时考虑词频的因素对文本相似度的影响,有效减少了相似度低的文本干扰。实验结果验证了改进算法的有效性和准确性。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

学术咨询 免费咨询 杂志订阅