浪潮发布AI深度学习训练集群管理软件
发布日期: 2017-05-15 09:22 字体:【 信息来源: 济南高新技术产业开发区管理委员会
浏览次数:

近日,浪潮发布人工智能深度学习训练集群管理软件AIStation。AIStation的发布更好地完善了浪潮“智慧计算”在深度学习领域的产品布局,它与T-Eye训练调优工具和深度学习并行计算框架Caffe-MPI一起,共同构建融工具、管理与框架于一体的强大AI软件平台,并与浪潮多样化的AI硬件平台共同实现前端承接多源数据、后端支撑智能应用,促进人工智能技术普惠。

AIStation是一个高效、易用的深度学习集群管理平台,可支持多种深度学习框架,快速部署深度学习训练环境,全面管理深度学习训练任务,实现对计算集群的CPU、GPU资源进行统一的管理、调度及监控,有效的提高计算资源的利用率和生产率。

人工智能深度学习训练流程较长、开发环境较复杂,涉及数据准备和处理、特征工程、建模、调参等多个步骤及多个框架和模型,每个框架依赖环境不同且有可能交叉使用。同时,深度学习模型在训练时往往耗时较长,短则数小时长则数天,以往在训练完成后才意识到模型存在问题,大大耗费了用户的精力和时间。

浪潮AIStation可提供从数据准备到分析训练结果的完整深度学习业务流程,支持Caffe、TensorFlow、CNTK等多种计算框架和GoogleNet、VGG、ResNet等多种模型,支持对训练过程实时监控并可视化训练过程,支持打印每一步的损失函数值的日志、训练误差或测试误差等,支持动态分配GPU资源实现资源合理共享,实现了“一键式”部署深度学习计算环境、快速启动训练任务,实时监控集群的使用情况,合理安排训练任务,可及时发现运行中的问题,提高集群的可靠性。

浪潮一直致力于为人工智能提供领先计算力,目前拥有业界最全的GPU服务器产品线,不仅可提供单机2/4/8卡的GPU服务器,更与百度联合发布了面向更大规模数据集和深层神经网络的超大规模人工智能计算平台AI-SR整机柜服务器,实现单机16块GPU加速卡扩展,可支持千亿样本、万亿参数级别的模型训练。

目前,浪潮已是全球Super7互联网公司中的三家(Baidu、Ali和Tencent)的AI GPU服务器的主要供应商,并与科大讯飞、奇虎360、搜狗、今日头条、Face++等人工智能领先公司保持在系统与应用方面的深入紧密合作,帮助客户在语音、图像、视频、搜索、网络等方面取得数量级的应用性能提升。