摘要:多表连接查询是大数据分析领域重要的查询类型之一,然而连接查询的实现代价很高,从而影响了大数据分析结果的时效性。在线聚集能够在查询完成前反馈具有统计意义的估计结果具有重要的意义。目前已有的多表连接在线聚集算法从各表进行统一随机采样,导致连接结果的产出率低,并且导致分组连接查询的估计准确率低。针对这一问题,提出了基于马尔可夫链的多表连接在线聚集技术,将多表连接的实现过程转换为马尔可夫链上的随机游走过程,确定好连接顺序后在游走起始层创建分层样本,并设计了相应的采样策略及结果估计方法。将所提出技术在在线化Hadoop平台上实现,实验结果证明所提出方案的响应时间优于已有算法,并且具有良好的扩展性。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社
热门期刊服务
中国CT和MRI Journal of Systems Science and Complexity China World Economy ComputerDIY玩脑者 International Journal of Computing Journal of Systems Engineering and Electronics Communications in Theoretical Physics Research in Astronomy and Astrophysics International Journal of Automation Computing Journal of Computer Science and Technology The Journal of China Universities of Posts and Telecommunications