首页 期刊 轻工学报 网页去重方法研究及算法设计 【正文】

网页去重方法研究及算法设计

作者:张素智; 樊得强 郑州轻工业学院计算机与通信工程学院; 河南郑州450002
中文字主题要素   模糊匹配   去重算法   查全率   差准率  

摘要:针对在网页检索结果中经常出现内容相同的冗余页面的问题,为了按用户偏好对搜索结果进行筛选,提出了一种通过中文字主题要素学习网页内容的网页去重算法.该算法通过抽取网页要素中用户偏好的短语来抽取网页的内容,根据学习的网页内容计算其相似度来判断网页的重复度.经与相似方法比较,结果表明,该方法能够完成针对中文内容网页的去重,具有较高的查全率和查准率.

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

学术咨询 免费咨询 杂志订阅