大模型推理

生产级大模型推理
全链路优化平台

覆盖LLM大规模MoE实时推理与AIGC生图/生视频异步推理全
场景优化，分钟级弹性扩缩容，高并发稳定承接

联系我们

从集群拉起、推理架构优化到弹性与缓存加速的全链路能力

针对LLM 在线实时推理与AIGC异步生成两大企业级大模型推理场景

Prefill-Decode分离架构

多模态批处理优化

分钟级百实例弹性扩缩容

高稳定

保障长短文本混合场景的稳定性与尾延迟

高并发

稳定承接生产业务的高并发与突发流量

规模化

生成任务可规模化交付

核心能力

超大规模 MoE 的PD分离推理

AIGC异步推理与工作流优化

弹性扩缩容与平滑升级

线上观测与数据底座

超大规模 MoE 的PD分离推理

分布式推理服务： 原生支持多节点的快速服务化一键部署与多种拓展

PD 分离架构： 支持Prefill实例与Decode实例的解耦部署以及自动router，根据业务特征自主控制PD资源配比与整体集群的扩缩容

MoE 推理专项优化： 面向多机多卡的并行、通信与路由开销优化，提升吞吐与稳定性

AIGC异步推理与工作流优化

ComfyUI等工作流托管： 自动任务化/队列化执行，支持异步生成

批量高并发处理： 支持自动批处理、并发控制与优先级调度

多层缓存加速： 支持镜像/模型等多种关键依赖的缓存加速，降低冷启动与重复加载带来的耗时与抖动

弹性扩缩容与平滑升级

多种扩缩容策略: 支持按手动、定时、业务负载和自定义策略等多种扩缩容的策略配置

平滑升级能力: 支持灰度发布、滚动升级与版本控制，升级过程保持服务连续性，降低变更风险

极致弹性能力： 支持分钟级数百个实例拓展，为业务峰谷提供极致弹性和最佳成本匹配

线上观测与数据底座

完备日志采集： 覆盖请求入口、路由/调度、Prefill/Decode 阶段、模型侧与资源侧关键日志与链路追踪

指标监控与告警： 时延、吞吐、队列长度、失败率、GPU 利用率/显存水位等全量监控

自动扩缩容提供量化支撑： 基于并发、队列、时延、资源水位等多维指标驱动扩缩容策略闭环

多策略请求分发： 支持负载均衡分发、并行数量均衡、Cache-aware分发等多种业务目标驱动的策略配置

为什么选择无问芯穹

专为MOE模型打造的集群推理基座，
实现3倍以上性价比提升

打通 MoE 推理、长文本架构、单任务推理链路的多维优化，实现生产级性价比提升

MoE 模型优化：支持 1T+ 参数超大规模 MoE 推理，单 Token 性价比提升 3 倍+

实例推理加速：通过计算优化、通信优化、并行方式、稀疏量化、投机推理等多种加速优化，实现单实例速度提升100%

规模化部署：超大模型分布式推理一键拉起，降低上线与变更风险

PD 分离架构支持，
长文本处理更稳、更可控

通过 Prefill-Decode 解耦与独立资源配比，提升长文本与混合请求场景的稳定性

PD 分离架构：Prefill/Decode 解耦，针对长文本生成场景深度优化

资源独立扩缩容：按阶段单独扩缩，减少互相抢占带来的抖动

线上体验可守：长短请求混跑更稳定，TTFT与TPS更稳定，sla 99.99%的保障

分钟级弹性扩缩容，
峰值扛得住，成本降得下

在业务流量波动与活动突发下，快速扩展算力供给并在低谷回收

弹性扩缩容：1 分钟内完成百实例扩展，快速承接突发百倍流量

多触发策略：按并发/队列/时延/资源水位自动扩缩

资源回收：低谷自动缩容，避免长期为峰值买单

AIGC 工作流优化：千万级日任务、
20 万+瞬时并发稳定交付

面向生图/生视频等异步生成，提供亲和调度、工作流托管、批处理与缓存加速

推理极致加速：通过节点、算子、模型加速等多种方式实现工作流1倍以上加速优化

并发任务高吞吐：可支持每日1000w个多模态推理任务业务稳定运行

峰值并发能力：瞬时并发20w以上个任务的架构开箱即用

异步批处理与缓存加速：亲和队列调度 + 自动批处理 + 模型镜像缓存，减少80%以上冷启动情况

客户故事

某AIGC创业公司

提供多种AI生图业务，平台流量随热点动态变化，需快速响应市场并灵活扩缩容

联系我们

优化前

热点响应滞后：突发热点导致线上业务流量激增且远超于已储备的算力资源，当QPS超200时，每分钟有几十万新增用户因体验不佳而流失

性能断崖式下跌：大规模请求下推理性能下降30%，单任务处理耗时超20秒，付费用户跳出率激增

扩缩容效率低：临时补充算力需重新配置环境与服务，迭代速度慢，无法跟上流量变化

优化后

峰值流量平稳承接：热点期间承接平时200倍流量，业务零中断，生图任务需求全满足

推理速度翻倍：单任务推理从20+秒优化至10秒以内，用户跳出减少70%以上

5分钟快速集成：基于平台现有环境与模型资产，新工作流5分钟内集成上线

成本大幅降低：热点期间用户运营服务成本降低50%以上，带动收入有效增长

某大模型独角兽公司

上线百亿大参数MoE模型，为多业务提供统一推理服务，业务峰谷波动、多长度请求混合，需兼顾高并发稳定与成本控制。

联系我们

使用平台前

人工扩缩容低效：7×24小时人工值守手动调整资源，且需要多机部署复杂配置，运维负担重

长尾请求拖累性能：长短请求混杂，特殊长度请求导致常规响应变慢，用户投诉不断

成本压力大：依赖大量冗余备机支撑高并发，长文本处理请求居高不下，扩缩容策略粗放

使用平台后

自动弹性扩缩：支持业务驱动的自动扩缩容策略，一键拉起与PD配置，减少80%人工运维

精准请求分桶：根据请求长度与cache命中精准分桶处理，保障高吞吐与快速响应的性能指标

长文本推理加速：首Token生成时间降低1秒，吞吐提升2倍以上，综合token性价比提升3倍，线上业务经营结构更健康

释放无穹智能，让AGI触手可及

联系我们，获取定制化 AI 基础设施解决方案

立即咨询

Agentic Infra自主式AI基座

多元异构基座

大模型训练

大模型推理

企业级智能体

具身智能工具链

Agentic MaaS大模型服务平台

助力AI时代各行各业的智能革命

AI原生企业解决方案

智能制造行业解决方案

AIGC企业解决方案

智能硬件解决方案

全球领先全栈贯通的自主式AI基础设施核心技术

多元异构

软硬协同

自主式AI

精选无穹资讯与AI共同进化

新闻动态

媒体报道

视频报道

生产级大模型推理
全链路优化平台

从集群拉起、推理架构优化到弹性与缓存加速的全链路能力

Prefill-Decode分离架构

多模态批处理优化

分钟级百实例弹性扩缩容

保障长短文本混合场景的稳定性与尾延迟

稳定承接生产业务的高并发与突发流量

生成任务可规模化交付

核心能力

为什么选择无问芯穹

专为MOE模型打造的集群推理基座，
实现3倍以上性价比提升

PD 分离架构支持，
长文本处理更稳、更可控

分钟级弹性扩缩容，
峰值扛得住，成本降得下

AIGC 工作流优化：千万级日任务、
20 万+瞬时并发稳定交付

客户故事

某AIGC创业公司

某大模型独角兽公司

释放无穹智能，让AGI触手可及

多元异构基座

大模型训练

大模型推理

企业级智能体

具身智能工具链

AI原生企业解决方案

智能制造行业解决方案

AIGC企业解决方案

智能硬件解决方案

多元异构

软硬协同

自主式AI

新闻动态

媒体报道

视频报道

生产级大模型推理 全链路优化平台

从集群拉起、推理架构优化到弹性与缓存加速的全链路能力

Prefill-Decode分离架构

多模态批处理优化

分钟级百实例弹性扩缩容

保障长短文本混合场景的稳定性与尾延迟

稳定承接生产业务的高并发与突发流量

生成任务可规模化交付

核心能力

为什么选择无问芯穹

专为MOE模型打造的集群推理基座， 实现3倍以上性价比提升

PD 分离架构支持， 长文本处理更稳、更可控

分钟级弹性扩缩容， 峰值扛得住，成本降得下

AIGC 工作流优化：千万级日任务、 20 万+瞬时并发稳定交付

客户故事

某AIGC创业公司

某大模型独角兽公司

释放无穹智能，让AGI触手可及

生产级大模型推理
全链路优化平台

专为MOE模型打造的集群推理基座，
实现3倍以上性价比提升

PD 分离架构支持，
长文本处理更稳、更可控

分钟级弹性扩缩容，
峰值扛得住，成本降得下

AIGC 工作流优化：千万级日任务、
20 万+瞬时并发稳定交付