顶会+3!无问芯穹与清华大学等联合团队三项成果入选 CVPR 2026 Oral 及 RSS 2026

应用赋能 关于无穹

近日,国际顶级学术会议 CVPR 2026 与 RSS 2026 先后公布录用结果。无问芯穹与清华大学等联合团队三项研究成果成功入选,其中一项获选为 CVPR 2026 Oral,两项被 RSS 2026 录用。此次“顶会三连中”充分展现了双方在强化学习算法及系统、具身智能、多智能体等前沿方向上的深厚的技术积累与领先的研究实力。


CVPR(IEEE/CVF Conference on Computer Vision and Pattern Recognition)是计算机视觉与模式识别领域公认的全球顶级学术会议,位列 CCF A 类,H5 指数位居全球计算机科学会议前列。本届 CVPR 2026 共收到投稿 16092 篇,创历史新高,录用率25.42%,据统计,近两届 CVPR 会议 Oral 论文录用比例均仅占总录用数的3.3%,代表了计算机视觉领域最具突破性和影响力的研究成果。


RSS(Robotics: Science and Systems)是机器人领域顶级学术会议,以严苛的数学严谨性、算法可证明性与系统可复现性为核心特色,覆盖机器人学习、感知、控制、规划、人机交互等前沿研究方向。往届会议曾涌现出在高速无人机避障、多机器人协同、人形机器人运动控制等多个方面的突破性工作。会议整体秉持「小而精」的定位,深耕基础理论与核心算法研究,评审标准严格、科研成果质量突出。



CVPR 2026 Oral

VS-Bench:评估视觉语言模型在多智能体环境中的策略推理能力


视觉语言模型(VLMs)的最新进展将其能力扩展到了交互式智能体任务,然而现有的基准测试仍局限于单智能体或纯文本环境。相比之下,真实世界的场景往往涉及多个智能体在丰富的视觉与文本情境中相互交互,这既带来了多模态观察的挑战,也带来了策略性交互的挑战。


为弥合这一差距,本文提出了视觉策略基准(Visual Strategic Bench,简称 VS-Bench),这是一个用于评估视觉语言模型在多智能体环境中策略能力的多模态基准。VS-Bench 包含十个基于视觉的环境,涵盖合作型、竞争型以及混合动机型的交互场景。视觉语言模型智能体的表现从三个维度进行评估:以元素识别准确率衡量的感知能力;以下一步动作预测准确率衡量的策略推理能力;以及以归一化回合回报衡量的决策能力。


本文在十五个领先的视觉语言模型上开展了大量实验,结果表明:尽管当前模型展现出较强的感知能力,但在推理与决策方面距离最优表现仍有显著差距——表现最佳的模型仅取得了 46.6% 的预测准确率和 31.4% 的归一化回报。本文进一步分析了影响模型表现的关键因素,开展了人类实验,并考察了模型的失败模式,以更深入地理解视觉语言模型的策略能力。通过对评估流程的标准化以及对现有模型局限性的揭示,我们希望 VS-Bench 能够成为未来策略型多模态智能体研究的基础。



RSS 2026

RLinf-USER:面向具身智能的真实世界可扩展在线策略学习系统


近年来,随着具身智能的发展,研究范式正逐步从“仿真训练+真实部署”转向直接在真实世界中进行在线策略学习。然而,与仿真环境不同,真实世界具有不可加速、难以复位、成本高昂以及设备异构等特点,使得数据采集效率低、训练过程不稳定,传统依赖同步训练和单机资源的强化学习系统难以扩展。因此,真实世界策略学习的瓶颈不再仅仅是算法问题,而本质上是一个系统问题。


针对这一挑战,本文提出了一个统一且可扩展的真实世界在线策略学习系统RLinf-USER,从系统层面重构机器人学习范式。在规模化在线策略学习场景下,存在大规模异质硬件资源(机器人、端云计算卡)难以统一管理和调度的问题,USER采用统一硬件抽象层,将机器人硬件与计算硬件放在相同层级管理,实现“像使用GPU一样使用机器人” ,具有高度可扩展性。


针对具身大模型在端云协同训练时面临的端云网络跨域互通困难、集中式通信跨域开销大等问题,USER设计了自适应通信平面,通过网络隧穿和分布式数据通道降低跨域通信负担,实现流量本地化, 完成了跨越千里的端云协同训练(北京、深圳两地多机同时学习),跨域场景下学习效率提升约3倍。针对仿真世界同步训练架构效率低的问题,USER设计了全异步训练架构,解耦数据生成、传输、训练与权重同步,训练吞吐提升5.7倍。针对长周期在线学习中多模态数据体量持续增长、纯内存缓冲区容量受限、纯磁盘存储难以满足高频采样需求的问题,USER设计了持久化缓存感知缓冲区,通过内存缓存与磁盘持久化存储协同,结合动态索引组织与异步存取机制,实现了海量历史数据的高效采样与持续复用。此外,USER在统一的接口下,还支持多样的学习组件(多种模型、算法和奖励函数),模块化的设计易于二次开发。



RSS 2026

RLinf-VLA:面向视觉-语言-动作模型强化学习的统一高效框架


近年来,视觉-语言-动作(VLA)模型正成为具身智能的重要基础,而强化学习(RL)为进一步提升任务成功率提供了关键手段。然而,当前 VLA 的 RL 研究仍存在三方面问题:一是模型、算法与仿真器相互割裂,缺乏统一平台,难以公平比较与灵活扩展;二是渲染、推理与训练之间耦合紧密,系统资源利用不足,效率受限;三是缺少系统性的训练经验总结,导致性能提升不稳定、复现成本较高。


为此,本文提出 RLinf-VLA,一个面向 VLA 强化学习的统一高效框架,其核心特点可概括为“多、快、好”。“多”在于通过统一接口支持多种 VLA 模型、RL 算法与异构仿真器,提升扩展性与评测一致性;“快”在于针对 RL 流水线设计灵活资源分配机制,并为 GPU 并行仿真提出混合细粒度流水线策略,实现1.61倍—1.88倍的训练加速;“好”在于基于该框架训练的模型在 LIBERO、ManiSkill 和 RoboTwin 等基准上取得约20%-85%的稳定性能提升,并进一步总结出一套有效的训练实践。RLinf-VLA 为具身智能中的 VLA 强化学习研究提供了一个统一、高效且可复现的基础系统。


本次 “CVPR Oral + RSS 双顶会连中三元” 的佳绩,不仅印证了无问芯穹与清华大学等在强化学习算法及系统、具身智能、多智能体等核心技术栈上的研究硬实力,也充分彰显了无问芯穹与清华大学等高校研究机构“校企联合攻关”模式的前瞻性与高效性。未来,无问芯穹将继续深化产学研合作,持续推动前沿算法向真实场景的应用加速转化,为具身智能的实际落地提供更强有力的技术底座。


释放无穹智能,让AGI触手可及

联系我们,获取定制化 AI 基础设施解决方案

释放无穹智能,让AGI触手可及