首页 期刊 计算机工程 一个轻量级分布式机器学习系统的设计与实现 【正文】

一个轻量级分布式机器学习系统的设计与实现

作者:宋匡时; 李翀; 张士波 中国科学院计算机网络信息中心; 北京100190; 中国科学院大学计算机科学与技术学院; 北京100190
机器学习系统   分布式系统   并行计算   集合通信   模块化  

摘要:为满足大规模机器学习系统高定制化、低耦合与低资源消耗的需求,设计并实现一个轻量级分布式机器学习系统。采用模块化分层设计并移植多种主流的机器学习与深度学习算法,同时提出参数服务器与动态Ring-AllReduce 2种可扩展梯度同步方案,对算法模型进行并行训练加速。实验结果表明,该系统对于稀疏与稠密模型均有较好的扩展性与稳定性,参数服务器训练可达到与单机相近的准确率与收敛效果,Ring-AllReduce也能在8节点模型上实现相对单节点模型6倍的训练加速。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

学术咨询 免费咨询 杂志订阅