Agentic Infra
自主式AI基座

面向AI原生企业的大规模模型训练推理一体化平台

让智能体助你高效

万卡级规模模型训练

千亿级参数模型推理

异构算力适配与优化

生产与服务多智能体

联系我们

核心能力

多元异构算力基座

万卡级大模型训练服务

大规模模型推理服务

Agent智能化服务体系

多元异构算力基座

支持英伟达、AMD、华为昇腾、天数、沐曦、寒武纪、壁仞等多种主流AI芯片

自动池化管理与统一调度，屏蔽底层硬件差异

与上层负载调度深度集成优化，实现多种智能调度策略应用和资源高效利用

面向 AI 训练与推理的高性能存储与网络设计，满足多模态数据与大规模分布式计算的吞吐需求

万卡级大模型训练服务

分布式训练优化加速：多节点协同计算的通信优化、通信拓扑自动优化、数据加载优化、启动时延降低

全方位容错机制：异步Checkpoint快速保存恢复，环境机器等多层级异常检测，分钟级任务恢复、迁移

可视化训练监控：实时指标追踪、训练过程可观测、异常自动告警

前沿算法原生支持：非侵入式支持强化学习、具身智能场景的基础设施

大规模模型推理服务

超大规模MOE集群推理：支持1T+参数超大模型的分布式推理一键拉起

Prefill-Decode分离架构支持：推理集群配置管理，支持多种长度文本生成场景的极致稳定性、性能优化

多模态AIGC优化：支持ComfyUI等多模态工作流的自动异步批量高并发处理，镜像存储缓存加速

弹性扩缩容：多种扩缩容策略支持，支持分钟级百实例弹性扩展，应对流量突发

Agent智能化服务体系

平台运维Agent：集群告警自动分析、异常检测处理、节点智能上下架

运营管理Agent：库存自动管理、负载与资源使用情况智能分析

多Agent协同：平台管家Agent协同资源管理助手、文档智能问答、训练排障等多种专家agent赋能

可靠支撑企业级大模型训练与推理全生命流程

高效构建、稳定运行、智能管理大规模AI基础设施
Agent全程护航，更快、更稳、更省

用户/应用接入层

Restful API 平台CLI Python、Go等多种语言SDK

Agent智能化服务层

Agent驱动的平台体验

平台管家Agent

资源管理助手

文档智能问答

训练排障专家

运维Agent

集群告警处理

节点智能上下架

故障自动恢复

运营Agent

库存自动管理

SKU智能变更

活动价格调整

专家Agent 蜂群

多专家协同

智能决策

效率提升

大模型训练服务

效率+30%

万卡级分布式训练优化

通信加速数据IO优化启动时延降低

全方位容错机制

Checkpoint快恢复分钟级任务恢复

可视化训练监控

实时指标追踪异常自动告警

支持场景:

预训练后训练强化学习

大模型推理服务

性价比x3

超大MOE推理优化

1T+参数 PD分离架构长文本优化

弹性扩缩容能力

1分钟内百实例扩展应对流量突发

AIGC工作流优化

日均1000万任务瞬时20万+并发加速100%+

支持场景:

API服务 AIGC生成多模态推理

算力池化与智能调度层

统一纳管

多芯片统一纳管

屏蔽硬件差异统一接口

自动池化管理

资源弹性分配智能调度

负载深度优化

极致资源利用性能优化

多元异构算力基座

多芯片支持

GPU

NPU

GPU

MLU

GPU

为什么选择无问芯穹

一套标准基座支持10+种计算芯片，万卡规模可拓展

针对多种类型的芯片与万卡规模的集群，提供统一的基座标准，实现企业级的大规模纳管与调度：

多元芯片支持：摆脱单一芯片厂商绑定，10+种主流芯片支持，新芯片接入适配时间缩短至天级

智能调度策略优化：预置多种智能调度策略，支持独占资源与临时资源的灵活调度，空闲资源浪费减少 40%+

高可用可拓展：支持从百卡到万卡集群的线性扩展，支持多种异地可用区的灵活配置，系统可用性 >99.9%

全链路监控告警：支持50+ 核心监控指标实时采集

万卡级训练全链路优化，端到端效率提升35%+

针对万卡以上大模型预训练、后训练、强化学习场景，提供从训练框架到调度层的全链路的端到端优化：

分钟级容错恢复：Checkpoint快速保存与加载，故障自动检测与恢复，训练中断损失降至最低

通信性能优化：多维度通信加速，减少分布式训练中的通信开销

数据IO加速：高效数据加载管线，消除数据读取瓶颈

启动时延优化：快速任务启动与资源分配，缩短实验迭代周期

复杂环境开箱即用：强化学习、具身等算法场景的自动化环境配置管理，降低工程化配置难度

大规模推理极致性价比，单Token成本降低3倍

面向几百卡以上的生产级推理场景，提供多维度性能优化：

MOE模型优化：支持1T+参数超大规模MOE模型推理，单Token性价比提升3倍以上

PD分离架构支持：Prefill-Decode解耦，针对长文本生成场景的深度优化

弹性扩缩容：1分钟内完成百实例扩展，应对业务流量波动

AIGC工作流优化：支持每日1000万个ComfyUI工作流任务，瞬时并发20万+任务

推理加速：单任务性能优化，推理速度提升100%+

Agent智能化运维，平台运转效率全面提升28%以上

长期业务打磨，通过Agent体系实现平台的自动化、智能化管理：

故障自愈：运维Agent自动处理集群告警，智能上下架异常节点，故障恢复时间速度提升10倍以上

用户赋能：平台管家Agent提供资源管理、文档问答、训练排障等智能服务

蜂群协作：多专家Agent协同工作，提升模型开发、应用与生成效率

AIGC工作流优化：打通集群、平台等多后台数据，负载与库存感知，自动管理资源库存、价格策略

运营自动化：打通集群、平台等多后台数据，负载与库存感知，自动管理资源库存、价格策略

客户故事

某大型实验室

需要基于几千卡的集群来完成大语言模型的预训练、后训练与强化学习。

联系我们

优化前

经常在 NCCL 60 分钟的超时阈值内难以完成，导致任务反复容错、训练无法顺利启动

几百B的模型MOE预训练和GRPO，60%-70%概率 2000卡任务跑1小时卡住，无法正常继续

优化后

可在15分钟内完成之前同样60分钟卡住的数据初始化问题

同样的训练任务可以正常吞吐稳定运行两周以上

某大模型独角兽

模型开发到模型线上环节众多，多部门协同，线上业务多个模型组合，业务流复杂，推理业务存在明显的流量波峰波谷。

联系我们

使用平台前

若临时扩容需要等待1-2周从而错失业务流量，购买多余固定集群用于动态扩展的备用资源则会出现闲时的资源浪费，从而导致成本增加。

数据处理和模型训练使用不同的计算资源，工作环境割裂导致整个工作流复杂且难协同，产出物需要跨平台运输

使用平台后

基于平台实现了分钟级动态灵活的资源扩缩容，极大降低生产成本

训推一体，产出模型可以标准化方式快速嵌入到客户自有业务pipeline，模型更新迭代时间降低72%

联系我们

释放无穹智能，让AGI触手可及

联系我们，获取定制化 AI 基础设施解决方案

立即咨询

多元异构基座

大模型训练

大模型推理

企业级智能体

具身智能工具链

AI原生企业解决方案

智能制造行业解决方案

AIGC企业解决方案

智能硬件解决方案

多元异构

软硬协同

自主式AI

新闻动态

媒体报道

视频报道

Agentic Infra 自主式AI基座

核心能力

可靠支撑企业级大模型训练与推理全生命流程

平台管家Agent

运维Agent

运营Agent

专家Agent 蜂群

万卡级分布式训练优化

全方位容错机制

可视化训练监控

超大MOE推理优化

弹性扩缩容能力

AIGC工作流优化

多芯片统一纳管

自动池化管理

负载深度优化

为什么选择无问芯穹

一套标准基座支持10+种计算芯片， 万卡规模可拓展

万卡级训练全链路优化， 端到端效率提升35%+

大规模推理极致性价比， 单Token成本降低3倍

Agent智能化运维， 平台运转效率全面提升28%以上

客户故事

某大型实验室

某大模型独角兽

释放无穹智能，让AGI触手可及

Agentic Infra
自主式AI基座

一套标准基座支持10+种计算芯片，万卡规模可拓展

万卡级训练全链路优化，端到端效率提升35%+

大规模推理极致性价比，单Token成本降低3倍

Agent智能化运维，平台运转效率全面提升28%以上