首页 期刊 计算机工程与设计 文件搜索引擎数据采集策略的优化 【正文】

文件搜索引擎数据采集策略的优化

作者:胡亮 袁芳 齐芸芸 清华大学计算机与信息管理中心 北京100084
文件传输协议   搜索引擎   时效性   更新频率   队列排序  

摘要:在研究传统FTP文件搜索引擎的检索时效性问题的基础上,认为数据采集更新策略是提高其检索结果可访问性的关键影响因素,为此提出了一种有针对性的数据采集更新模型。该模型研究了数据采集更新频率与队列排序两个因子对检索时效性的影响,其中更新频率被设计用于解决在怎样尽可能降低服务器负载压力的前提下保证较高的平均有效下载比率的问题,而队列排序用于解决在一次数据采集更新中怎样确定FTP站点队列采集对象顺序的策略优化。实验结果表明,该策略可以有效地提高检索结果的平均有效链接比率。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

学术咨询 免费咨询 杂志订阅