首页 期刊 计算机科学 基于ORC元数据的Hive Join查询Reducer负载均衡方法 【正文】

基于ORC元数据的Hive Join查询Reducer负载均衡方法

作者:王华进; 黎建辉; 沈志宏; 周园春 中国科学院计算机网络信息中心; 北京100190; 中国科学院大学; 北京100049
负载均衡   mapreduce   hive   join   reducer  

摘要:负载不均衡问题位列影响大规模MapReduce集群性能因素的首位,而Hive join查询非常容易触发该问题。通用解决方案是基于中间键值对的key频率分布设计能够实现负载均衡的key划分算法。现有工作估算key频率分布时依赖于对map的输出进行监控采样,使得通信开销较大并显著延后了shuffle的启动。针对Hive join查询,提出了基于ORC元数据的key频率分布估计方法和相应的负载均衡key划分方法。该方法具有计算量小、通信开销小、不影响现有shuffle机制的优点。通过基准测试证明了该方法在key频率分布估算效率上的巨大提升及相应的key划分方法对Hive join查询性能的提升。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

学术咨询 免费咨询 杂志订阅