解决方案

分布式存储

AI训练集群解决方案

场景介绍

面向智算中心、超算节点及AI服务厂商等场景，支撑千亿级大模型训练任务，覆盖语音识别、图像分类、自动驾驶、机器翻译等核心AI业务。方案致力于构建千卡至万卡级GPU集群，有效应对传统网络参数同步拥堵、存储流量抢占带宽、算力利用率低等瓶颈问题。

业务需求

高带宽低时延

支持GPU间高效数据交互，满足NCCL Allreduce等集合通信需求，保障参数同步效率。
超大规模扩展

集群支持万卡级组网，具备高QP数量与多层级Pod架构适配能力，确保跨节点通信稳定。
灵活调动与成本优化

解决流量拥塞问题，兼容自定义协议，同时显著降低超大规模组网的硬件与功耗成本。
数据安全合规

网卡支持安全启动与安全更新，满足智算中心部署规范与安全要求。

解决方案

采用“图南系列智能网卡 + RDMA交换机 + 自研算法”的全栈方案，核心配置包括

可编程调度

支持自定义拥塞控制算法，避免PFC死锁和流量风暴，实现业务流量灵活调度和高效传输。
硬件层

智算服务器部署TUNAN-7智能网卡，搭配RDMA交换机，构建高带宽、低时延的智算网络
协议与算法

不仅支持RoCEv2协议，还可以通过可编程引擎支持Lossy RDMA能力，网络集群可扩展到万卡及以上规模
安全与生态

基于RISC-V架构实现硬件可信根启动，支持国密/RSA/SHA等安全算法；兼容兼容主流GPU平台，适配麒麟、欧拉等国产操作系统。

客户价值

性能突破

NCCL Allreduce带宽利用率显著提升，参数同步延迟大幅降低，大模型训练任务完成时间明显缩短。
协同加速

硬件级协议卸载与自研拥塞控制算法协同，实现跨节点数据传输无瓶颈，XCCL集合通信效率再提升，进一步缩短大模型训练迭代周期。
稳定运维

支持万卡级集群无缝扩展，QP数量与SGE元素个数灵活可配，为未来十万卡级算力需求奠定基础。
安全合规

全栈软硬件深度适配信创体系，通过硬件可信根、国密算法等多重防护，防范数据安全风险，保障AI数据安全与合规运行。