企业级算力租赁服务
0建设成本,按需定制,提供免费测试
裸金属算力租赁+算力集群性能调优
管理服务器
CPU: 2*英特尔至强银牌4316(2.9GHz/20-Core)
内存: 16*32GB DDR4-3200
系统盘: 2*480GB-SATA 6Gb/s
数据盘: 4*1920GB-SATA 6Gb/s
阵列卡: 1*SAS/SATA RAID卡
网卡: 2*1 端口 200Gb Infiniband HDR/Ethernet
基础软件环境
操作系统:
Ubuntu 20.04 LTS/内核 Linux 5.4.0-166-generic
Docker环境:
Docker version 24.0.7/Nvidia-docker 2 2.13.0/Nvidia-container-runtime 3.13.0/Nvidia-container-toolkit 1.14.3
采用InfiniBand组建SuperPOD
带来平滑加速比
~N/2 pairs run in parallel
Latency
1.6~1.7 us (Hops=2)
2.2~2.3 us (Hops=4)
Bandwidth
375~385 Gbps
Bi-Bandwidth
730~770 Gbps
运维服务
SLA1(默认):5*8小时
硬件工程师+网络工程师
SLA2:7*12小时
硬件工程师+网络工程师+CDUA底层
容器工程师
SLA3:7*24小时
硬件工程师+网络工程师+CDUA底层
容器工程师+算法工程师
配套软硬件及运维服务
SUPPORTING SOFTWARE&HARDWARE,OPERATION AND MAINTENANCE SERVICES
Tensor-AUTO AI管理调度平台
AI CLUSTER MANAGEMENT PLATFORM
灵活编排针对机器学习的分布式并行计算,同时采用轻量级容器技术,资源调度响应更快,既支持裸服务器部署也支持虚拟机部署
MLOps机器学习开发流程管理集成多种主流的机器学习框架和交互式IDE 开发环境;完善的工作流程支持各种模型训练和推理服务场景
资源弹性计算资源和算力优化 管理, vGPU、GPU共享、多机多卡分布式并行训练、用户优先级排序、组织及用户资源配额等