首页 期刊 计算机应用研究 MC-OLA:基于马尔可夫链的多表连接在线聚集技术 【正文】

MC-OLA:基于马尔可夫链的多表连接在线聚集技术

作者:史英杰; 杜方 北京服装学院信息工程学院; 北京100029; 宁夏大学信息工程学院; 银川750021
在线聚集   马尔可夫链   分层采样   多表连接  

摘要:多表连接查询是大数据分析领域重要的查询类型之一,然而连接查询的实现代价很高,从而影响了大数据分析结果的时效性。在线聚集能够在查询完成前反馈具有统计意义的估计结果具有重要的意义。目前已有的多表连接在线聚集算法从各表进行统一随机采样,导致连接结果的产出率低,并且导致分组连接查询的估计准确率低。针对这一问题,提出了基于马尔可夫链的多表连接在线聚集技术,将多表连接的实现过程转换为马尔可夫链上的随机游走过程,确定好连接顺序后在游走起始层创建分层样本,并设计了相应的采样策略及结果估计方法。将所提出技术在在线化Hadoop平台上实现,实验结果证明所提出方案的响应时间优于已有算法,并且具有良好的扩展性。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

学术咨询 免费咨询 杂志订阅