4090/5090：突破 P2P 限制，释放多卡协同潜力-七号智算

在人工智能与高性能计算领域，多 GPU 协同工作是提升算力的重要途径。NVIDIA 的 RTX 4090 与 RTX 5090 作为消费级旗舰显卡，在单卡性能上表现卓越，但在多卡互联的 P2P（Peer-to-Peer）直连访问方面，却面临着诸多限制与挑战。打破这些限制，对于挖掘显卡潜力、提升多卡系统整体性能具有关键意义。

传统 P2P 限制与多 GPU 通信困境

在多 GPU 系统中，数据需要在不同 GPU 之间频繁传输，如深度学习训练中的模型参数同步、科学计算中的数据共享等。传统的多 GPU 通信架构依赖 PCIe 总线经 CPU 中转进行数据传输，这种方式存在明显的瓶颈。以 PCIe 4.0 x16 为例，其理论带宽仅为 31.5GB/s，相较于 RTX 4090 高达 1TB/s 的显存带宽，简直是天壤之别。而且，CPU 的介入增加了额外的延迟，在复杂模型训练中，参数同步时间可能占据总训练时间的 40% 以上，严重影响了计算效率。

P2P 技术旨在解决这一问题，它允许 GPU 之间通过 NVLink 或 PCIe Switch 直接访问对方显存，消除 CPU 中介环节，将端到端延迟降低至微秒级。借助 RTX 4090 支持的第三代 NVLink，双向带宽可达 600GB/s，建立起比 PCIe 快 20 倍的直连通道，为多卡协同提供了高速的数据交互桥梁。然而，NVIDIA 出于产品定位与市场策略考虑，在 GeForce 系列消费级显卡中对 P2P 功能进行了限制。在 RTX 4090 上，MAILBOXP2P 硬件接口被禁用或不存在，导致早期驱动虽错误报告 P2P 可用性，但实际通过 PCIe 总线传输数据时却引发系统崩溃等问题。

RTX 4090 突破 P2P 限制的探索与实践

为突破 RTX 4090 的 P2P 限制，技术社区展开了积极探索。随着 RTX 3090/4090 引入大 BAR 支持（如 4090 的 BAR1 显存扩展至 32GB），NVIDIA 在 H100 中新增 BAR1P2P 模式，直接通过 PCIe BAR 实现点对点传输。受此启发，技术团队尝试在 4090 上绕过硬件抽象层，调用 GH100 方法强制启用 BAR1P2P。通过 kbusEnableStaticBar1Mapping_GH100 映射显存至 BAR1 后，运行 P2P 测试程序时却触发了 MMU 错误。深入分析发现，4090 不支持 GMMU_APERTURE_PEER 映射类型，需改用 GMMU_APERTURE_SYS_NONCOH 类型并修正物理地址处理逻辑。即便如此，调整后实测传输带宽达 24.21GB/s，但数据验证失败。进一步排查发现，需将 peer 地址字段 fldAddrPeer 替换为系统内存地址字段 fldAddrSysmem，并正确配置 BAR1 基地址。经过一系列艰难调试，最终成功实现跨 GPU 数据传输，验证了通过 BAR1P2P 在消费级显卡绕开硬件限制的可行性。

同时，有开发者创建了 open - gpu - kernel - modules 项目，这是 NVIDIA 驱动程序的一个分支，通过直接利用 PCIe 总线进行 GPU 间数据传输，绕过传统的 MAILBOXP2P 接口，成功为 RTX 4090 显卡添加了点对点通信支持，且与 NCCL 兼容，显著提高了多 GPU 系统性能。该方法遵循 PCIe 规范，有望被纳入上游驱动程序，为用户带来更高效的计算能力。在具体操作上，在 Ubuntu 系统中，用户需要关闭 Nouveau driver，安装特定版本的 NVIDIA 驱动（安装时选择无 kernel 模组安装，以便后续 P2P 内核重新编译），从 github 下载驱动对应的 open 内核版本（如 open - gpu - kernel - modules 仓库）等一系列复杂步骤，才能开启 P2P 功能。

RTX 5090 的 P2P 限制与性能表现

RTX 5090 发布后，因其移除 P2P 直连与 NVLink 功能，业界对其多卡协同能力存疑。不过，RTX 5090 得益于 PCIe 5.0 接口与 BlackWell 新架构优化，在未启用 P2P 的情况下，多卡间通信延迟仍显著优于前代产品，通信速度相比 RTX 4090 提升近一倍。在 4 卡场景下的 NCCL 通信性能测试中，RTX 5090 的 NCCL 带宽峰值达 28.98GB/s，较 RTX 4090（19 - 21GB/s）提升约 50% 。

这表明，尽管 RTX 5090 在硬件设计上舍弃了 P2P 直连与 NVLink，但新架构与高速接口在一定程度上弥补了 P2P 功能缺失的影响，在单机多卡场景下（尤其是 4 卡以内）仍具备较强的竞争力，适合中小规模模型训练与推理任务。然而，在 8 卡场景下，RTX 5090 的 NCCL 性能与 RTX 4090 基本持平，推测是由于跨 CPU 数据传输延迟增加，且 PCIe 通道资源竞争加剧，成为多卡扩展的潜在瓶颈。

突破 P2P 限制的意义与未来展望

突破 4090/5090 的 P2P 限制，对于提升多卡系统的计算效率、降低能耗具有重要意义。在能效比日益重要的今天，P2P 直连架构可减少约 35% 的冗余数据搬运功耗。根据 NVIDIA 官方测试数据，8 卡 RTX 4090 集群在使用 P2P 后，在 BERT - Large 训练任务中每瓦特性能提升达 22%，这对于构建绿色数据中心具有现实意义。

从未来发展看，随着 AI 大模型的不断演进，对多卡协同计算的需求将持续增长。一方面，硬件厂商可能会在后续产品中重新审视 P2P 功能的定位与设计，在保证产品差异化的同时，为消费级用户提供更强大的多卡互联能力；另一方面，技术社区将继续探索软件层面的优化方案，通过更智能的算法、更高效的驱动程序，进一步挖掘现有硬件的潜力，让 4090/5090 等显卡在多卡协同运算中发挥出更大的价值，推动人工智能与高性能计算领域迈向新的高度。

4090/5090突破P2P限制，详情请点击：https://aiforseven.com/p2p_08071426_96

创建时间：2025-09-17 10:40

算力平民化新标杆：8 卡 5090 服务器、5090 推理机、5090 一体机 + P2P 破解，七号智算解锁中端 AI 算力极致性能

2026 年，AI 算力需求持续下沉，从头部企业向中小企业、个人开发者全面渗透，性价比成为算力选型的核心指标。RTX 5090 作为英伟达 Blackwell 架构消费级旗舰，凭借 32GB GDDR7 显存、1.79TB/s 显存带宽、3352TOPS 的 FP8 算力，成为中端 AI 训练与推理场景的 “甜点级” 选择。七号智算精准把握市场趋势，推出 8 卡 5090 服务器、5090 推理机、5090 一体机全系列产品，搭配自研 P2P 破解技术，彻底释放多卡协同潜力，打破高端算力垄断，推动 AI 算力平民化，成为中小企业 AI 落地的核心引擎。

넶0 2026-06-02
H200/B200/B300 租赁市场爆发，七号智算引领高端算力普惠潮

2026 年，生成式 AI 全面进入多模态并发与普惠落地阶段，大模型训练与推理需求呈指数级增长，高端算力供需失衡持续加剧。据赛迪研究院数据，2026 年中国算力租赁市场规模预计突破 2600 亿元，同比增长超 20%，其中 H200、B200、B300 等旗舰 GPU 租赁需求占比超 60%，成为驱动市场增长的核心引擎。七号智算作为国内领先的高端算力租赁服务商，深度布局 H200 租赁、B200 租赁、B300 租赁全矩阵，以技术创新与资源整合能力，破解行业算力紧缺痛点，助力企业低成本布局 AI 核心生产力。

넶0 2026-06-02
极致性价比之选：七号智算8卡5090服务器与推理机深度解析

如果说H200和B200是云端训练的皇冠，那么消费级旗舰显卡则是边缘推理和中小企业微调的利器。随着RTX 50系列显卡的发布，基于Blackwell架构消费版核心的8卡5090服务器迅速成为了市场上的“硬通货”。七号智算紧跟技术前沿，推出了针对该系列显卡的多元化解决方案，涵盖了5090推理机、5090一体机以及相关的技术优化服务。

넶6 2026-05-28
算力新纪元：七号智算引领H200、B200、B300算力租赁新潮流

随着人工智能大模型参数量的指数级增长，算力已成为数字经济时代的“新石油”。然而，高昂的硬件成本与快速的技术迭代，让许多企业和开发者望而却步。在此背景下，算力租赁模式应运而生，成为打破算力壁垒的关键钥匙。作为行业内的佼佼者，七号智算凭借敏锐的市场洞察力和强大的资源整合能力，正在重新定义高性能计算资源的获取方式。

넶6 2026-05-28

4090/5090：突破 P2P 限制，释放多卡协同潜力

算力平民化新标杆：8 卡 5090 服务器、5090 推理机、5090 一体机 + P2P 破解，七号智算解锁中端 AI 算力极致性能

H200/B200/B300 租赁市场爆发，七号智算引领高端算力普惠潮

极致性价比之选：七号智算8卡5090服务器与推理机深度解析

算力新纪元：七号智算引领H200、B200、B300算力租赁新潮流