首页 期刊 新一代信息技术 数据抽取中噪音过滤应用研究 【正文】

数据抽取中噪音过滤应用研究

作者:郭东峰 新乡学院计算机与信息工程学院; 河南新乡453000
噪音   过滤   knn分类算法  

摘要:在数据抽取中,网页中噪音数据的处理是关键的第一步。针对噪音数据类型以及它们在网页中的位置,采取利用启发式规则和基于文本内容方法两种策略分步对噪音数据区域过滤,使用kNN文本分类算法进一步对列表页中的非用户关注栏目过滤。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社