迈络思与英伟达携手,以 IB 组网和 GPU 池化管理赋能算力调度新变革

在数字化转型的浪潮中,算力已成为驱动各行业创新发展的核心要素。随着人工智能、大数据、高性能计算等领域应用的不断深化,对算力的需求呈现出爆发式增长,且对算力的高效管理与灵活调配提出了更高要求。在此背景下,Infiniband 组网(IB 组网)、GPU 池化管理以及算力调度等技术成为构建先进计算基础设施的关键,而迈络思(Mellanox)与英伟达(NVIDIA)作为行业内的领军企业,正通过紧密合作,推动这些技术的创新发展与广泛应用。

Infiniband 组网:高性能计算网络的基石

Infiniband 是一种专为大规模并行计算系统设计的高性能、低延迟网络通信技术。其组网结构与常见的 Fat - Tree 拓扑类似,关键组件包括子网管理器(SM)、Infiniband 网卡、Infiniband 交换机和连接线缆。在数据传输过程中,Infiniband 采用链路级流控机制,有效防止发送过量数据导致的缓冲区溢出或数据丢包问题,确保数据传输的连续性和稳定性。同时,自适应路由技术能够依据每个数据包的具体情况进行动态路由选择,实现网络资源的实时优化和最佳负载均衡。

 

迈络思在 Infiniband 技术领域深耕多年,其产品广泛应用于数据中心、高性能计算集群等场景。早在 2010 年底,迈络思完成了对著名 Infiniband 交换机厂商 Voltaire 公司的收购,进一步巩固了其在 HPC、云计算、数据中心等市场的地位。通过不断的技术研发与创新,迈络思的 Infiniband 产品能够提供超高的端口密度和卓越的网络性能,为大规模集群系统提供了可靠的网络连接。

 

英伟达同样高度重视 Infiniband 技术在其产品生态中的应用。英伟达的 GPU 服务器与迈络思的 Infiniband 网络设备深度适配,例如英伟达的 ConnectX InfiniBand 主机网卡(HCA),可与迈络思的交换机等设备协同工作,提供超低延迟和超高吞吐量的数据传输能力。在人工智能模型训练场景中,大量的 GPU 需要进行频繁的数据交互,Infiniband 组网能够满足这种高带宽、低延迟的通信需求,确保模型训练过程的高效稳定进行。以大规模深度学习模型训练为例,基于 Infiniband 组网的计算集群能够显著缩短训练时间,提升训练效率,为 AI 技术的快速发展提供有力支撑。

GPU 池化管理:提升资源利用率的关键

随着人工智能应用的多样化发展,企业和科研机构对 GPU 资源的需求日益复杂。GPU 池化管理技术应运而生,它以 GPU 虚拟化为基础,突破了传统 GPU 虚拟化仅支持共享的限制,融合了共享、聚合和远程使用等多种能力,致力于打造全能型软件定义 GPU,以解决当前用户在 GPU 资源使用过程中的痛点。

 

对于大多数企业而言,充分利用现有 GPU 资源,实现其在新兴大模型与传统业务模型之间的充分轮转与复用,最大化发挥 GPU 效能,是当下的重要任务。与 CPU 不同,GPU 具有独特的生态特点与复杂性,实现 GPU 虚拟化并共享经济面临更多限制和更高难度。狭义的 GPU 虚拟化无法满足大模型所需的 GPU 按需灵活调度、多业务分时复用、任务排队与优先级设定以及业务热迁移等需求。

 

在 GPU 池化管理方面,市场上出现了多种技术方案,其中用户态 GPU 池化技术逐渐崭露头角。以英伟达的 GPU 应用架构为例,其分为用户态、内核态、GPU 硬件三个层次。用户态层运行着各种使用英伟达 GPU 的应用程序,如人工智能计算和图形渲染应用等,英伟达提供 CUDA 等用户态运行库作为编程接口。用户态虚拟化方案正是利用 CUDA 等标准接口,通过拦截和转发 API,对被拦截函数进行解析,再调用硬件厂商提供的用户态库中的相应函数,同时借助 RPC 方式实现远程 API Remoting,从而使 CPU 主机能够通过网络调用 GPU 主机的 GPU,将多个 GPU 服务器组成资源池,供多个 AI 业务调用,实现 GPU 池化。

 

一些企业推出的 GPU 池化产品,如趋动科技的 OrionX,通过在多台不同类型的 GPU 服务器上部署软件,构建统一的 GPU 资源池,实现了 GPU 资源的统一调度、灵活分配、弹性伸缩等云化能力。这种方式不仅提高了整个云和数据中心的 GPU 利用率,还提升了算法工程师的工作效率。例如,在一个拥有多台 GPU 服务器的企业数据中心中,通过 GPU 池化管理,可根据不同业务的实时需求,动态分配 GPU 资源,避免了部分 GPU 资源闲置,而部分业务因资源不足等待的情况,有效提升了资源利用率,降低了企业的硬件采购和运营成本。

算力调度:优化资源分配的核心机制

算力调度是在分布式、多计算节点的计算环境中,基于任务的优先级、资源需求、实时负载等因素,动态调配计算资源,以达到最佳系统性能和资源利用效率的过程。在当今复杂的计算环境中,算力调度广泛应用于云计算、大数据处理、边缘计算、人工智能模型训练等众多领域,是现代信息技术体系的重要组成部分。

 

迈络思和英伟达为算力调度提供了强大的技术支持。迈络思的软件协议栈 OFED(OpenFabrics Enterprise Distribution),为服务器和存储集群提供了低延迟和高带宽的通信能力,支持多种协议,如 MPI(Message Passing Interface)、Lustre/NFS over RDMA 等,这些协议在并行计算和数据存储访问中发挥着关键作用,为算力调度提供了良好的软件基础。英伟达则通过其强大的 GPU 计算能力以及相关的软件工具,如 NVIDIA Unified Fabric Manager(UFM)平台,帮助数据中心管理员高效地对 InfiniBand 网络基础设施进行调配、监控、管理和主动故障排查,从而更好地实现算力调度。

 

在实际应用中,以智能制造为例,企业可能需要在不同的生产环节中进行复杂的模拟计算和数据分析,通过算力调度技术,能够根据各环节的任务优先级和实时资源需求,将分布在不同地理位置的计算资源进行优化调度,提升生产效率,降低成本。在自动驾驶汽车的研发过程中,大量的传感器数据需要实时处理,算力调度能够确保这些数据处理任务被合理分配到具有合适算力的计算节点上,保证数据处理的实时性和准确性,为自动驾驶技术的安全性提供保障。

携手共进,开拓未来

迈络思与英伟达在 Infiniband 组网、GPU 池化管理和算力调度等领域的合作,为各行业的数字化转型和创新发展注入了强大动力。通过 Infiniband 组网提供的高速、稳定网络连接,GPU 池化管理实现的高效资源利用,以及算力调度达成的优化资源分配,企业和科研机构能够构建更加先进、灵活、高效的计算基础设施。

 

展望未来,随着技术的不断进步,迈络思和英伟达有望继续深化合作,在提升网络性能、优化 GPU 资源管理算法、增强算力调度的智能化水平等方面取得更多突破。例如,进一步优化 Infiniband 网络的拓扑结构和传输协议,提高网络的可扩展性和容错能力;研发更加智能的 GPU 池化管理策略,实现资源的精准分配和动态调整;利用人工智能和机器学习技术,让算力调度系统能够根据历史数据和实时业务变化,自动预测资源需求,实现更加智能、高效的资源调配。这些技术的持续创新与发展,将为人工智能、大数据、物联网等新兴技术的发展提供更坚实的支撑,助力各行业在数字化时代实现跨越式发展,开创更加美好的未来。

 

算力中心建设交付,请点击查看详细方案:https://aiforseven.com/delivery

 

算力集群运维解决方案:https://aiforseven.com/om

 

算力租赁需求请点击这里:https://aiforseven.com/leasing

 

AIGC应用定制解决方案:https://aiforseven.com/delivery

创建时间:2025-04-02 10:05
  • 极致性价比之选:七号智算8卡5090服务器与推理机深度解析

    如果说H200和B200是云端训练的皇冠,那么消费级旗舰显卡则是边缘推理和中小企业微调的利器。随着RTX 50系列显卡的发布,基于Blackwell架构消费版核心的8卡5090服务器迅速成为了市场上的“硬通货”。七号智算紧跟技术前沿,推出了针对该系列显卡的多元化解决方案,涵盖了5090推理机、5090一体机以及相关的技术优化服务。

    0 2026-05-28
  • 算力新纪元:七号智算引领H200、B200、B300算力租赁新潮流

    随着人工智能大模型参数量的指数级增长,算力已成为数字经济时代的“新石油”。然而,高昂的硬件成本与快速的技术迭代,让许多企业和开发者望而却步。在此背景下,算力租赁模式应运而生,成为打破算力壁垒的关键钥匙。作为行业内的佼佼者,七号智算凭借敏锐的市场洞察力和强大的资源整合能力,正在重新定义高性能计算资源的获取方式。

    0 2026-05-28
  • 2026 消费级 AI 算力革命,七号智算 8 卡 5090 服务器 / 推理机 / 一体机与 P2P 破解全解析

    2026 年,AI 推理需求爆发式增长,消费级高端显卡 RTX 5090 凭借单卡高性能,成为中小规模 AI 部署、模型微调、多模态生成的核心选择。七号智算紧跟市场热点,推出 8 卡 5090 服务器、5090 推理机、5090 一体机全系列产品,并通过 P2P 破解技术突破多卡通信瓶颈,释放消费级算力集群的极致性能,为企业与开发者提供高性价比、灵活部署的 AI 算力方案,推动 AI 技术普惠化发展。当前 RTX 5090 集群在中端推理场景性能接近专业卡,成本仅为数据中心 GPU 的 1/3,七号智算单品矩阵正重塑中小规模 AI 算力市场格局。

    0 2026-05-27
  • 2026 高端算力租赁爆发,七号智算 H200/B200/B300 集群重塑 AI 基础设施

    2026 年,AI 产业从模型竞赛转向行业深水区,算力需求呈指数级增长,高端 GPU 供需失衡加剧,算力租赁成为企业降本增效的核心选择。七号智算依托前沿资源布局与技术服务能力,构建 H200、B200、B300 全矩阵算力租赁体系,覆盖从主流推理到超大规模训练的全场景需求,成为驱动 AI 产业落地的核心算力引擎。当前国内高端智算缺口超 35%,H200、B200、B300 租赁市场供不应求,七号智算以稳定供给与定制化服务,破解企业算力焦虑,助力千行百业 AI 转型。

    1 2026-05-27

推荐文章