首页 期刊 小型微型计算机系统 并行计算框架Spark中一种新的RDD分区权重缓存替换算法 【正文】

并行计算框架Spark中一种新的RDD分区权重缓存替换算法

作者:刘恒; 谭良 四川师范大学计算机科学学院; 成都610101; 中国科学院计算技术研究所; 北京100190
spark   弹性分布式数据集   缓存替换策略   并行计算   rdd缓存  

摘要:并行计算框架Spark的缓存替换机制是提高其计算性能和效率的重要手段.目前,针对Spark采用的缓存替换算法LRU会使高重用但最近未使用的Block容易被换出缓存的缺点,提出了基于权重的缓存替换算法,但已有的基于权重的缓存替换算法存在权重值计算不准确,考虑因素不全面,度量方法不够细致,影响了缓存的命中率和作业执行的效率.提出一种新的RDD分区的权重缓存替换算法——WCSRP.为了使RDD分区权重值的计算更加准确,WCSRP不仅综合考虑RDD的计算代价、使用次数、分区的大小和生命周期四大因素对权重的影响,而且还增加考虑了Task执行时Locality Level这个因素,并对以上五个因素进行了量化计算.实验结果表明WCSRP算法让RDD分区权重值的计算更准确,提高了内存资源利用率和作业执行效率.

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

学术咨询 免费咨询 杂志订阅