从集群拉起、推理架构优化到弹性与缓存加速的全链路能力

针对LLM 在线实时推理与AIGC异步生成两大企业级大模型推理场景

Prefill-Decode分离架构

Prefill-Decode分离架构

多模态批处理优化

多模态批处理优化

分钟级百实例弹性扩缩容

分钟级百实例弹性扩缩容

高稳定

保障长短文本混合场景的稳定性与尾延迟

高并发

稳定承接生产业务的高并发与突发流量

规模化

生成任务可规模化交付

核心能力

超大规模 MoE 的PD分离推理
AIGC异步推理与工作流优化
弹性扩缩容与平滑升级
线上观测与数据底座
超大规模 MoE 的PD分离推理
超大规模 MoE 的PD分离推理

分布式推理服务: 原生支持多节点的快速服务化一键部署与多种拓展

PD 分离架构: 支持Prefill实例与Decode实例的解耦部署以及自动router,根据业务特征自主控制PD资源配比与整体集群的扩缩容

MoE 推理专项优化: 面向多机多卡的并行、通信与路由开销优化,提升吞吐与稳定性

AIGC异步推理与工作流优化
AIGC异步推理与工作流优化

ComfyUI等工作流托管: 自动任务化/队列化执行,支持异步生成

批量高并发处理: 支持自动批处理、并发控制与优先级调度

多层缓存加速: 支持镜像/模型等多种关键依赖的缓存加速,降低冷启动与重复加载带来的耗时与抖动

弹性扩缩容与平滑升级
弹性扩缩容与平滑升级

多种扩缩容策略: 支持按手动、定时、业务负载和自定义策略等多种扩缩容的策略配置

平滑升级能力: 支持灰度发布、滚动升级与版本控制,升级过程保持服务连续性,降低变更风险

极致弹性能力: 支持分钟级数百个实例拓展,为业务峰谷提供极致弹性和最佳成本匹配

线上观测与数据底座
线上观测与数据底座

完备日志采集: 覆盖请求入口、路由/调度、Prefill/Decode 阶段、模型侧与资源侧关键日志与链路追踪

指标监控与告警: 时延、吞吐、队列长度、失败率、GPU 利用率/显存水位等全量监控

自动扩缩容提供量化支撑: 基于并发、队列、时延、资源水位等多维指标驱动扩缩容策略闭环

多策略请求分发: 支持负载均衡分发、并行数量均衡、Cache-aware分发等多种业务目标驱动的策略配置

为什么选择无问芯穹

客户故事

某AIGC创业公司

提供多种AI生图业务,平台流量随热点动态变化,需快速响应市场并灵活扩缩容

某AIGC创业公司
优化前

热点响应滞后:突发热点导致线上业务流量激增且远超于已储备的算力资源,当QPS超200时,每分钟有几十万新增用户因体验不佳而流失

性能断崖式下跌:大规模请求下推理性能下降30%,单任务处理耗时超20秒,付费用户跳出率激增

扩缩容效率低:临时补充算力需重新配置环境与服务,迭代速度慢,无法跟上流量变化

优化后

峰值流量平稳承接:热点期间承接平时200倍流量,业务零中断,生图任务需求全满足

推理速度翻倍:单任务推理从20+秒优化至10秒以内,用户跳出减少70%以上

5分钟快速集成:基于平台现有环境与模型资产,新工作流5分钟内集成上线

成本大幅降低:热点期间用户运营服务成本降低50%以上,带动收入有效增长

某大模型独角兽公司

上线百亿大参数MoE模型,为多业务提供统一推理服务,业务峰谷波动、多长度请求混合,需兼顾高并发稳定与成本控制。

某大模型独角兽公司
使用平台前

人工扩缩容低效:7×24小时人工值守手动调整资源,且需要多机部署复杂配置,运维负担重

长尾请求拖累性能:长短请求混杂,特殊长度请求导致常规响应变慢,用户投诉不断

成本压力大:依赖大量冗余备机支撑高并发,长文本处理请求居高不下,扩缩容策略粗放

使用平台后

自动弹性扩缩:支持业务驱动的自动扩缩容策略,一键拉起与PD配置,减少80%人工运维

精准请求分桶:根据请求长度与cache命中精准分桶处理,保障高吞吐与快速响应的性能指标

长文本推理加速:首Token生成时间降低1秒,吞吐提升2倍以上,综合token性价比提升3倍,线上业务经营结构更健康

释放无穹智能,让AGI触手可及

联系我们,获取定制化 AI 基础设施解决方案

释放无穹智能,让AGI触手可及