摘要:在大量的文本数据中,针对不能快速有效地提取或查找有用信息及知识这个问题,以文本相似度计算为基础的文本数据挖掘成为数据挖掘研究领域里的一个重要的课题。论文主要研究两种不同的方法 VSM余弦算法和Simhash来实现文本相似度的计算,首先采用传统的VSM余弦算法和Simhash算法,按照余弦公式通过内积最终计算出文本间的相似度大小n(0〈n〈1),最后为了实现余弦算法并提高系统效率,使用了大量容器如Map、Set和Vector以及内积算法等。实验结果表明,余弦算法VSM由于其局限性不适合进行文本的相似度计算,而Simhash算法则具有高准确度以及可行性。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社