从通信优化到容错恢复的全链路集成优化

针对千卡~万卡级大模型训练场景

分布式计算深度优化

分布式计算深度优化

异步Checkpoint机制

异步Checkpoint机制

智能拓扑调度

智能拓扑调度

可视化监控与自动告警

可视化监控与自动告警

30%

端到端训练效率提升

分钟级

故障恢复时间从小时级降至

高效稳定

大规模训练

核心能力

分布式训练优化加速
全方位容错机制
可视化训练监控
前沿算法原生支持
分布式训练优化加速
分布式训练优化加速

多节点协同计算加速: 支持集合通信、通信拓扑、流水线并行等多维度优化,提升跨机跨卡效率

数据加载优化: 通过数据pipeline、采样策略、分布式数据加载等多种方式,消除数据IO瓶颈

启动与调度优化: 支持镜像、模型的预加载缓存,优先级的队列与弹性训练支持,缩短大作业启动与扩容等待时间

全方位容错机制
全方位容错机制

异步Checkpoint快速保存: 通过ckpt异步保存机制,配合分布式分片并行与多版本管理,加速迭代与快速回滚

多层级异常检测与恢复: 支持高温、掉卡、慢卡、hang任务等多种硬件、任务异常检测,并支持自动重启与故障恢复

任务自动迁移: 支持热备节点故障时秒级切换,跨节点迁移及部分故障弹性容错方式,减少训练损失与人力介入

可视化训练监控
可视化训练监控

实时指标追踪: 训练核心指标、性能指标、资源指标等50+关键指标一目了然

数据加载优化: 提供多维度的训练可视化Dashboard,支持训练日志与关键事件时间线

训练过程透明可见: 支持镜像、模型的预加载缓存,优先级的队列与弹性训练支持,缩短大作业启动与扩容等待时间

异常自动告警: 支持loss、性能、资源等多种异常情况的智能告警配置,支持分级与多渠道即时通知

前沿算法原生支持
前沿算法原生支持

强化学习场景优化: 原生支持多种主流RL框架环境一键配置拉起,支持多角色并行训练与多种更新策略加速

仿真训练一体化: 预置多种主流仿真器,支持Sim2Real多维度优化与多模态对齐优化

多种并行策略原生支持: 数据、模型、流水线、张量并行全支持,自动并行策略搜索,针对MOE提供Expert并行优化与专家路由通信加速

为什么选择无问芯穹

客户故事

某大型实验室

需要基于几千卡的集群来完成大语言模型的预训练、后训练与强化学习

某大型实验室
优化前

启动超时:任务在 NCCL 通信超时阈值(60 分钟)内频繁无法完成初始化,导致反复容错重启,训练难以正常启动

运行卡死:2000 卡规模下,60%-70% 的任务在运行约 1 小时后卡死,无法继续推进,严重拉低训练效率和资源利用率

速度波动:千卡规模下训练速度不稳,TFlops在180-330之间大幅波动,导致无法准确预估训练完成时间

延期风险:模型版本迭代周期超过1个月,产出效率低

优化后:

初始化提速:数据初始化耗时从 60 分钟压缩至 15 分钟内,彻底突破 NCCL 超时限制,训练启动成功率提升至近 100%。

运行极稳定:2000 卡规模下,任务可连续稳定运行两周以上,无中断、无卡死,吞吐量保持平稳,资源利用率最大化。

训练平稳:千卡规模下训练任务算力稳定在330TFlops,无突发降速,迭代周期精准可控

周期缩短:相同数据集与集群规模下,迭代周期缩短至20+天,提前完成模型训练目标

某具身智能独角兽

需要按期交付可用策略版本,研发链路覆盖真机数据闭环下的多模态大模型训练、离线回放评测,以及强化学习与仿真训练;训练任务规模大、并发高,对分布式效率、稳定性与可观测性要求强

某具身智能独角兽
使用平台前

启动与扩容不可控:千卡级训练任务依赖镜像/模型拉取、数据初始化及资源排队,启动等待时间不确定,影响按期迭代

算力极不稳定:千卡级训练任务 TFLOPS 在 180~330 之间大幅波动,速度不可控,无法准确评估训练周期与产出时间。

异常发现滞后:强化学习工程细节复杂,缺乏统一监控、事件时间线与分级告警,训练中断、卡死等问题往往在运行数天后才暴露,排查周期长

版本交付风险高:模型迭代周期长,发布进度不确定性高,投资人信心不足

使用平台后

启动快、吞吐稳:大作业启动与扩容等待大幅缩短,跨节点效率提升、数据IO瓶颈缓解,训练速度稳定,产出时间精准可预测

RL仿真规模化:配置与复现成本显著降低,可聚焦训练策略与算法调优,RL与仿真实验可大规模并发,加速收敛

异常自动恢复:训练中断与卡死减少,异常可自动恢复/迁移,人工介入大幅降低;性能退化、Loss异常等可提前预警,避免无效长跑

全链路可观测:训练与评测从“启动慢、易中断、吞吐波动”转向“启动快、稳定跑、可观测可回滚”,实验管理更规范

释放无穹智能,让AGI触手可及

联系我们,获取定制化 AI 基础设施解决方案

释放无穹智能,让AGI触手可及