6 月 5 日至 6 日,INSPIRE 2026 华为云创想者大会在上海西岸国际会展中心盛大举行。大会聚焦 AI 最新产业技术趋势及应用创新,吸引超万名顶尖开发者、技术专家与行业领袖到场参会。作为华为云重要合作伙伴,无问芯穹技术副总裁李秀红受邀出席大会,发表《无问芯穹 Agentic MaaS 优化实践》主题演讲,分享了针对华为昇腾的拓扑感知通信优化技术成果,并参与“共话未来 AI 技术演进”圆桌论坛,就企业 AI 发展对基础设施的需求,以及模型后训练在 AI 落地中的关键价值展开深入探讨,与在座嘉宾一起共话未来 AI 技术演进方向。

01 技术突破:Agentic MaaS 的拓扑感知优化实践
在主题演讲中,李秀红围绕模型能力的价值链条与 Agentic MaaS 技术进行了系统阐述。他指出,电能通过驱动模型服务生成 Token,Token 经由 Agent 放大为生产力,从而提升生产效率,最终转化为实际价值。他进一步介绍了 Agentic MaaS 的技术实现流程:客户端发起请求后,首先进入网关层,完成鉴权、计费、限流、内容审查及监控等任务;随后请求被转发至路由层,由路由层分发到各个集群,实现负载均衡,并承担部分非 GPU 密集型任务,从而释放推理实例的算力;最后请求到达推理实例层,该环节涉及大量与底层芯片的计算及通信过程,同时需确保输出结果的正确性。 李秀红指出,Agent 是 Token 调用量的放大器。随着 AI 应用场景从在线对话向复杂 Agent 任务扩展,大模型 Token 调用量呈现爆发式增长。在此背景下,Agent 场景下的 MaaS 工作负载正从传统在线交互模式,向复杂任务方向转型,请求的输入、输出长度及前缀匹配命中率均发生显著变化,这直接推动了部署方案从单实例到集群,再到多集群架构的持续升级。 需求的爆发式增长也驱动软硬协同技术的不断优化。李秀红以华为昇腾 910B 系列为例,分享了无问芯穹在通信优化方面的具体实践。他指出,在一个服务器节点内通常包含八张 NPU 卡,八卡之间通过交换机互联,每张卡配备一个网卡,用于服务器之间的组网,通过两层交换机网络将各卡连接起来。在针对昇腾进行通信优化时,序列并行往往采用传统的 Ring AllGather 通信模式,但该模式存在带宽利用率低、整体性能受限的问题。 为提升通信链路的使用率,无问芯穹团队对通信拓扑图进行了分解。在评估多种方案后,最终采用基于哈密顿分解算法的数学方法,以矩阵视角展开完全图,确保矩阵所有行的相同位置、所有列的相同位置不存在完全相同的元素。通过将所有通信链路构建成若干个环,环之间的通信任务彼此无干扰,从而充分利用所有通信链路,解决了链路利用率不足的问题。


在此基础上,团队进一步开展了通信任务分解与重映射等创新尝试,以提升整体性能。以输入句子“the sun is hot we sit in shade”为例,首先对 Prefill 输入数据进行等价拆分,为每份数据分别调用 Ring AllGather,并采用不同的数据传输顺序,从而获取全量数据。

由于单一通信环无法充分利用等效为全连接图的通信信道,团队通过软硬协同理解拓扑结构,结合数学方法将全连接图分解为多个无干扰的通信环,同时将一个通信任务拆解为多个互不干扰的子任务。经过多轮通信后,数据分布得到优化,最终实现了通信原语与加速器全连接信道拓扑的一一映射,显著提升了多卡通信基础设施的利用效率。

实测效果显著。在华为昇腾 910B 系列 NPU 上,当注意力头数为 20 时,Hamilton Attention 的加速比尤为可观。该优化方案开源后,华为的专家与合作伙伴将其适配到 MindSpeed 框架中。在多个长序列场景下测试均取得明显加速效果:WAN 2.2 模型在 18K 和 37K 序列长度下,Qwen3-VL 在 62K 和 248K 序列长度下,均获得显著性能提升。这一成果充分体现了无问芯穹与华为在长期技术合作与生态共建中的实践成效。

02 圆桌对话:共探 AI 基础设施与后训练价值
在随后举行的“共话未来 AI 技术演进”圆桌论坛上,李秀红与复旦大学国际关系与公共事务学院副教授、全球人工智能创新治理中心副主任、知名学者及主持人蒋昌建,中国信通院人工智能研究所平台与工程化部主任曹峰、华为公司Fellow,云系统首席专家余洲、华为云大模型后训练首席专家陈冲同台交流,围绕企业 AI 发展对算力基础设施的需求,以及模型后训练对企业 AI 落地的价值等议题展开讨论。 李秀红结合无问芯穹在集群部署与调度调优方面的实践经验,分享了企业在使用大规模超节点平台时面临的挑战与应对思路。 他指出,超节点作为一种新型组网技术,在实际使用中需关注两个方面的考量。一是建设与运维:超节点模糊了传统集群中服务器节点内的多卡连接方式,需依赖交换机实现互联,同时对供电、冷却、故障运维等基础设施层面提出更高要求。 二是系统优化和稳定性:采用超节点技术时,用户对延迟等体验存在担忧。从技术层面看,此前分享的针对昇腾的拓扑感知通信优化,均基于节点内与节点间的两层网络设施。引入超节点后,整体软件优化需相应升级,系统瓶颈可能随之变化,从而带来更多挑战与稳定性风险。 此外,李秀红还介绍了无问芯穹基于开源模型为客户提供的后训练与强化学习创新实践。他指出,后训练过程中会引入大量动态任务。其一,引入强化学习后,模型在 rollout 过程中输出长度动态变化,需动态调整训练与推理的比例甚至并行方式,不同阶段对资源的需求也各不相同,在线解决资源错配问题十分复杂。其二,当前的强化学习不仅依赖数学公式作为评价标准,还引入真实世界环境。例如在训练机器人时,需将机械臂接入训练系统,实时输出运动指令(如坐标、移动路径等)。将物理设备接入数字训练系统,从而提升高精度任务完成度。无问芯穹在此过程中提供环境与工具等服务,真正实现了物理世界与数字世界的训练闭环。 在论坛的最后,李秀红用一句古诗展望了 AI 技术的演进路径:“旧时王谢堂前燕,飞入寻常百姓家。”他相信,未来智能能力将真正转化为生产力,广泛赋能千行百业。 自 2025 年 6 月无问芯穹与华为云签署全面合作协议以来,双方围绕异构算力平台、昇腾算力集群、大模型适配研发及行业解决方案等领域持续深化合作。此次在华为云 INSPIRE 创想者大会上的技术分享,不仅展现了无问芯穹在 Agentic MaaS 方向上的领先技术实力,也彰显了无问芯穹推动国产 AI 基础设施自主可控与规模化落地的坚定决心。 面向未来,无问芯穹将持续顺应模型与芯片生态的演进,以系统性技术实践为支点,推动高效率、大规模、智能化的 Token 工厂建设,构筑自主式人工智能基础设施,助力 AI 深度融入千行百业的核心生产流程。







