|
|
深圳先进院云计算大型运算集群资源管理与特征分析研究方面取得进展 |
|
8月4日晚,云计算领域的国际旗舰会议SoCC 2018 (ACM Symposium on Cloud Computing 2018)评审结果揭晓。中国科学院深圳先进技术研究院数字所异构智能计算中心刘琪骁博士和喻之斌研究员合作的论文The Elasticity and Plasticity in Semi-Containerized Co-locating Cloud Workload: a View from Alibaba Trace被全文录用(双栏14页)。
该工作对2017年阿里巴巴集团发布的其内部集群的工作日志进行了详细分析和研究。该集群由1313台服务器组成,同时部署了大量阿里巴巴在线应用业务和离线计算任务。不同类别任务的混部对资源的管理和任务的调度提出了极高要求,该数据集对于学术界的研究有重要的指导意义,但分析该数据且得出有用的结论极具挑战。
论文对阿里巴巴的集群在混部场景下,阿里巴巴所采用的半容器化解决方案在实际应用场景中的表现进行了多元化分析。对阿里巴巴采用不同的方案对在线应用和离线任务进行管理的方式进行了优劣分析,并着重总结出其“弹性”和“塑性”特征。弹性即对任务在执行过程中不断变化的资源需求进行动态的管理,而塑性是在高弹性环境下通过一些特殊方式保持资源供给对任务性能需求进行保障的方法。论文还提出了一些新的指标,基于这些指标对集群管理中的瓶颈、限制和所需要的系统软件开销展开了详尽讨论,并由此对阿里巴巴集群数据集中的诸多现象作出解释。
据了解,SoCC于2009年首次举办,是由美国计算机学会(Association for Computing Machinery)主办的云计算方向最顶级会议。会议致力于召集全世界云计算方向的研究人员,开发者,用户和实践者进行创新的讨论,经验的分享和成果的展示。在过去几年中,SoCC会上发表了一系列云计算领域中的重要文章,比如广为使用的资源管理器YARN,Google trace等工作。2018年SoCC将于10月11-13日在美国加利福利亚召开。
阿里巴巴集群的CPU、内存、及磁盘的使用情况
阿里巴巴集群中不同任务的比例