Matrix CM

AI Max集群管理平台 & BCM集群管理平台

大数据、人工智能、深度学习等概念的崛起,对计算机硬件的性能提出了严峻的考验,而复杂多变的使用需求也使众多用户面临着一个艰难的抉择:是选择维护简单的单机模式,还是构建性能强大的 HPC 集群。单机模式的计算资源有限,而建构集群又不得不面对部署和运维困难、使用率低下、安全健康监控不到位等诸多问题。 AMAX 针对集群系统的管理需求提供 Matrix CM 集群管理平台,配合 Matrix CUBE 高性能硬件解决方案使集群的部署、管理、应用变得简单高效。

AI Max 机器学习平台

AI MAX 是AMAX一款基于Kubernetes+Docker+GPU架构,定位于机器学习的上层应用,免去客户编写代码的麻烦,快速开始深度学习任务。

AI Max核心特征:

一、图形化工作界面
用户界面下,UI界面平滑直观,所有项目一目了然,菜单选项简洁明了,功能化繁为简。
管理员界面下,针对用户组或用户进行便捷的操作管理,灵活支配计算机资源;完整记录用户详细适用信息。
二、DOCKER环境管理,快速搭建训练环境
系统预置种类丰富的任务镜像,支持各种机器学习框架,如:Caffe、TensorFlow、MxNET、Pytorch等。
用户可通过基础镜像等制作新的镜像并保存到镜像仓库,公共镜像和私人镜像相互隔离,启动快速且不干扰。
用户使用时只需自定义资源配额(CPU、内存、GPU等),选择训练框架并根据需求做出相应调整。
三、任务模型训练
基于Kubernetes的容器调度引擎,支持离线训练,成熟稳定,单机/集群均可。
训练任务可视化,显示loss和accuracy变化曲线,实时查看任务训练过程中的log输出。
四、用户权限管理
管理员可通过用户管理对用户进行细粒度管理,对用户或用户组进行增删改查等。
五、数据存储管理
基于Gluster的分布式存储架构,存储容量大、容易横向扩展。
支持创建私有数据及共享给组和用户。
六、节点管理,监控中心
用户可通过远程控制台监控集群健康状态和资源使用情况,可实现对集群节点增删。
直方图显示节点和分区CPU、GPU、Mem、网络IO、运行容器数量的实时统计。

BCM集群管理平台(BCM)

BCM以集成化方式,为集群管理员提供日常管理中所需要的几乎所有功能。可为使用者提供清晰的管理界面、简单的使用操作,安全可靠的监控管理、灵活方便的维护方案等。

BCM核心特性:
一、 管理界面
BCM采用的仪表盘式管理界面包括全部物理资源的使用情况,并以直观的图形化界面展示。此外BCM还会在管理界面下将集群的节点分布情况以及使用情况通过图形的方式展现。
二、 集群部署运维
管理员可以通过BCM提供的界面详细了解集群物理节点状况、交换机信息、电源、GPU、磁盘、系统等信息,并执行更新、卸载等操作。此外BCM还可以对于物理节点进行添加、修改等管理,管理员可以根据自己的运维习惯建立合理的管理计划。
三、 集群监控管理
BCM不仅可以监控集群使用以及温度情况,还可以根据类别、节点、资源(硬件、系统、网络)等分类收集整体集群的运行信息。信息收集对象不局限于硬件设备,也可针对集群的任何对象进行监控包括:作业队列、文件系统、Hadoop实例、VM、任务等。
四、 集成大量工具
BCM中集成了包括Azure、Hadoop、Ceph、OpenStack、Mesos等大量工具。帮助用户轻松进行各类集群部署、功能扩展和管理等多项任务,并且进行按需分配。此外BCM还可以快速构建云服务器,包括构建本地节点的软件映像、相同的用户验证及工作负载管理系统等,并大大简化了设置过程。
五、 灵活配置所需资源
实际运行中BCM可以根据工作需要及时进行切换,基于需求和策略重新部署本地节点。对于负载任务BCM可以根据任务需求,合理分配计算资源处理新增任务,并在任务结束之后将集群恢复到分配前的使用状态。