ICML 2026 三连中!无问芯穹携手上交、清华研究团队三项成果斩获国际顶会认可

重要动态 关于无穹

近日,机器学习与人工智能领域国际顶会 ICML 2026 录用结果正式揭晓。继此前接连斩获 CVPR 2026、RSS 2026 多项收录后,无问芯穹携手上海交通大学、清华大学再创佳绩:三篇重磅研究成果从全球海量投稿中强势突围、成功入选 ICML 2026,持续彰显团队在具身智能、模型推理加速与端侧轻量化部署等前沿方向的硬核科研底蕴与全球学术影响力。


其中,《STEP: 面向具身小脑的时空一致性暖启动方法》与《SpecPrune-VLA:基于动作感知的自推测视觉-语言-动作模型剪枝加速框架》两项工作皆聚焦于面向端侧的具身软硬部署优化;《THINK-AT-HARD: ⾯向推理语⾔模型的选择性潜在迭代⽅法》则是为参数受限⼩模型的推理能⼒提升与端侧⾼效部署提供了全新设计范式。




ICML(International Conference on Machine Learning)是机器学习与人工智能领域的国际顶级学术会议,是机器学习领域历史最悠久的、规模最大、影响最广的顶级学术会议之一,也是中国计算机学会CCF推荐的A类会议。与NeurIPS、ICLR并称为人工智能领域难度最大、水平最高、影响力最强的“三大会议”。本届 ICML 2026 共收到投稿 23918 篇,全球范围内投稿数量再创新高,是2025年的两倍,最终录用率为 26.6%。




ICML 2026

STEP: 面向具身小脑的时空一致性暖启动方法


扩散策略作为机器人操作领域极具潜力的具身小脑,其迭代去噪过程会产生显著推理延迟,严重限制了实时闭环控制系统的控制频率。当前主流推理优化方法难以在保证动作生成质量的同时,实现稳定的低延迟推理,成为制约其端侧落地应用的关键瓶颈。


针对这一问题,本文提出STEP——一种轻量级时空一致性暖启动预测机制通过构建高质量热启动动作,在不损失原始扩散策略生成能力的前提下,使热启动动作在分布上逼近目标动作,同时保证时间维度上的一致性。为解决热启动模式下易出现的执行停滞问题,尤其是面向现实世界机器人任务时,本文进一步提出速度感知扰动注入机制,基于时间维度上的动作变化特征,自适应调节驱动激励,有效规避执行死锁。

此外,本文提供了严谨的理论分析,证明所提预测机制可产生局部收缩映射,确保扩散细化过程中动作误差的稳定收敛。为验证方法有效性,我们在9个模拟基准任务及2个现实世界任务中开展了广泛评估,结果表明:在RoboMimic基准测试与现实世界任务中,仅需2步去噪的STEP,相较于BRIDGER和DDIM方法,成功率平均分别提升 21.6% 和 27.5%,持续推进了推理延迟与任务成功率的帕累托前沿。并在端侧2050 GPU上成功部署,推理延迟降至20ms,为扩散策略在实时机器人控制场景的落地提供了有效解决方案。



论文链接:https://arxiv.org/pdf/2602.08245

GitHub地址:https://github.com/Kimho666/STEP


ICML 2026

SpecPrune-VLA:基于动作感知的自推测视觉-语言-动作模型剪枝加速框架



在视觉-语言-动作(VLA)模型中,多视角图片(主视角,腕部,第三视角等)输入往往占据了输入序列的绝大部分(超过80%)。现有的视觉剪枝方法多仅关注当前动作步的局部信息,忽略了模型全局信息,导致成功率大幅下降或加速效果不显著。针对这一问题,本文提出了 SpecPrune-VLA,一种基于动作感知的自推测剪枝加速框架。


该方法的核心洞察在于利用机器人任务中连续输入图像的高时空一致性,通过复用上一动作步产生的模型深层与中层全局注意力分数来识别关键任务和动作信息,并结合基于末端执行器速度的自适应参考帧选择策略来捕捉当前帧的动态变化区域,最终融合当前步局部注意力筛选结果。同时,设计了一个轻量级的动作感知控制器,根据末端执行器的运动速度将任务划分为粗粒度移动和细粒度操作两个阶段:在精细操作阶段降低剪枝激进程度以保障精度,而在大范围移动阶段则提高剪枝率以提升效率。




实验表明,SpecPrune-VLA在 LIBERO 仿真基准及真实世界机器人任务中分别实现了高达 1.57 倍和 1.70 倍的加速比,且在任务成功率下降可忽略不计(< 0.7%)的前提下,显著提升了 VLA 模型的推理效率。



论文链接:https://arxiv.org/abs/2509.05614




ICML 2026

Think-at-Hard: ⾯向推理语⾔模型的选择性潜空间迭代⽅法




在参数受限场景下提升⼤语⾔模型的推理能⼒,是⾯向端侧部署的关键挑战。循环 Transformer 通过对每个输出 token 执⾏多次潜在迭代深化计算来提高参数利用效率,是⼀条新兴路径,但本⽂⾸次识别并量化了其中的“潜在过思考”(latent overthinking)现象:多数 token 在⾸次前向传播后已被正确预测,额外迭代反⽽会将部分正确结果翻转为错误。


针对这⼀问题,本⽂提出 Think-at-Hard(TaH)⸺⼀种⾯向选择性潜在迭代优化的循环 Transformer 架构。TaH 通过轻量级神经决策器仅对⾸次预测可能错误的“困难 token”触发额外迭代,并由深度感知的 LoRA 适配器将优化⽬标从通⽤的下⼀ token 预测转向困难 token 精炼;同时,本⽂提出双因果注意⼒(duo-causal attention)机制,将因果性从 token 序列维度扩展⾄迭代深度维度,在保持序列级并⾏的同时实现跨深度信息流动。配套的两阶段训练⽅案进⼀步解耦了主⼲模型与迭代决策器间的循环依赖,保障训练稳定。


实验结果表明,在数学、QA、代码等 9 个推理基准上,TaH 相⽐ Qwen3 基线最⾼实现 6.2% 的精度提升,且仅在 7% 的 token 上触发额外迭代;在真实部署中,TaH 于单卡 NVIDIA A800 上相⽐始终迭代基线实现 2.48× 解码加速、1.48× 显存降低为参数受限⼩模型的推理能⼒提升与端侧⾼效部署提供了全新设计范式。


论文链接:https://arxiv.org/abs/2511.08577

GitHub地址:https://github.com/thu-nics/TaH



从 CVPR 到 RSS 的连中三元,再到本次 ICML 2026 的三连中稿,密集的成果顶会中稿,见证了团队在技术前沿领域的长期深耕与持续突破。未来,无问芯穹将继续以学术前沿为引领、以产业需求为导向,深化与上海交通大学、清华大学等顶尖高校的科研合作与产学研融合攻关,坚持技术自研与源头创新,不断产出高水平学术成果与落地解决方案,助力人工智能产业迈向更高质量发展。





更多动态

释放无穹智能,让AGI触手可及

联系我们,获取定制化 AI 基础设施解决方案

释放无穹智能,让AGI触手可及