摘要:网页噪声过滤是网页预处理中关键的一步,其处理结果对后续处理的效率和准确性都有很大的影响。本文基于文本块字符数的统计规律,在总结了新闻网页特点的基础上设计了一种高效的新闻网页噪声过滤算法。该算法不仅完成了新闻正文的提取,也实现了新闻标题和报道时间的提取。试验证明,该算法有很高的处理速度,同时其提取的准确率也有了进一步的提高。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社
热门期刊服务
影响因子:0.34
期刊级别:部级期刊
发行周期:月刊
期刊在线咨询,1-3天快速下单!
查看更多>
超1000杂志,价格优惠,正版保障!
一站式期刊推荐服务,客服一对一跟踪服务!