摘要:针对在网页检索结果中经常出现内容相同的冗余页面的问题,为了按用户偏好对搜索结果进行筛选,提出了一种通过中文字主题要素学习网页内容的网页去重算法.该算法通过抽取网页要素中用户偏好的短语来抽取网页的内容,根据学习的网页内容计算其相似度来判断网页的重复度.经与相似方法比较,结果表明,该方法能够完成针对中文内容网页的去重,具有较高的查全率和查准率.
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社
热门期刊服务
相关文章
影响因子:0.59
期刊级别:北大期刊
发行周期:双月刊
期刊在线咨询,1-3天快速下单!
查看更多>
超1000杂志,价格优惠,正版保障!
一站式期刊推荐服务,客服一对一跟踪服务!