首页 期刊 计算机技术与发展 基于改进TFIDF算法的邮件分类技术 【正文】

基于改进TFIDF算法的邮件分类技术

作者:陶峰; 汤鲲; 程光 武汉邮电科学研究院; 湖北武汉430074; 南京烽火星空通信发展有限公司; 江苏南京210019; 东南大学计算机科学与工程学院; 江苏南京210096
邮件分类   区分度   特征词   权值   特征提取  

摘要:随着电子邮件的普及,垃圾邮件的泛滥问题也逐渐引起人们的关注,垃圾邮件分类技术的研究成为了近年来的热点课题。邮件特征选择会直接影响到分类的效率和精确度,使用TFIDF算法可以有效评估一个特征项对于邮件分类的重要程度。但在邮件分类中单纯使用TFIDF来判断一个特征是否有区分度还存在很多的不足:没有考虑到特征词在类间和类内的分布情况,低估了高频词的作用并高估了低频词的作用。对TFIDF算法进行修改,降低特例邮件中频繁出现的特征词的影响,引入了频率差,增加了在类中频繁出现的词条的权值,并减小了在类中出现频率小的词条的权值。最终将改进的TFIDF算法与传统特征提取算法进行对比。实验结果表明,改进算法可以选择出更合适的特征项集合,从而使邮件分类的效果更好。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

学术咨询 免费咨询 杂志订阅