摘要:在数据抽取中,网页中噪音数据的处理是关键的第一步。针对噪音数据类型以及它们在网页中的位置,采取利用启发式规则和基于文本内容方法两种策略分步对噪音数据区域过滤,使用kNN文本分类算法进一步对列表页中的非用户关注栏目过滤。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社
热门期刊服务
相关文章
影响因子:0.08
期刊级别:部级期刊
发行周期:半月刊
期刊在线咨询,1-3天快速下单!
查看更多>
超1000杂志,价格优惠,正版保障!
一站式期刊推荐服务,客服一对一跟踪服务!