解决方案

AI训练集群解决方案

场景介绍

面向智算中心、超算节点及AI服务厂商等场景,支撑千亿级大模型训练任务,覆盖语音识别、图像分类、自动驾驶、机器翻译等核心AI业务。方案致力于构建千卡至万卡级GPU集群,有效应对传统网络参数同步拥堵、存储流量抢占带宽、算力利用率低等瓶颈问题。


业务需求

  • 高带宽低时延

    支持GPU间高效数据交互,满足NCCL Allreduce等集合通信需求,保障参数同步效率。

  • 超大规模扩展

    集群支持万卡级组网,具备高QP数量与多层级Pod架构适配能力,确保跨节点通信稳定。

  • 灵活调动与成本优化

    解决流量拥塞问题,兼容自定义协议,同时显著降低超大规模组网的硬件与功耗成本。

  • 数据安全合规

    网卡支持安全启动与安全更新,满足智算中心部署规范与安全要求。

解决方案

采用“图南系列智能网卡 + RDMA交换机 + 自研算法”的全栈方案,核心配置包括
  • 可编程调度
    支持自定义拥塞控制算法,避免PFC死锁和流量风暴,实现业务流量灵活调度和高效传输。
  • 硬件层
    智算服务器部署TUNAN-7智能网卡,搭配RDMA交换机,构建高带宽、低时延的智算网络
  • 协议与算法
    不仅支持RoCEv2协议,还可以通过可编程引擎支持Lossy RDMA能力,网络集群可扩展到万卡及以上规模
  • 安全与生态
    基于RISC-V架构实现硬件可信根启动,支持国密/RSA/SHA等安全算法;兼容兼容主流GPU平台,适配麒麟、欧拉等国产操作系统。

客户价值

  • 性能突破
    NCCL Allreduce带宽利用率显著提升,参数同步延迟大幅降低,大模型训练任务完成时间明显缩短。
  • 协同加速
    硬件级协议卸载与自研拥塞控制算法协同,实现跨节点数据传输无瓶颈,XCCL集合通信效率再提升,进一步缩短大模型训练迭代周期。
  • 稳定运维
    支持万卡级集群无缝扩展,QP数量与SGE元素个数灵活可配,为未来十万卡级算力需求奠定基础。
  • 安全合规
    全栈软硬件深度适配信创体系,通过硬件可信根、国密算法等多重防护,防范数据安全风险,保障AI数据安全与合规运行。