• 网站首页
  • 国内
  • 国际
  • 产业
  • 机器人的手终于跟上脑子了?腾讯系创企推出端到端VLA模型

    发布时间: 2025-12-14 05:00首页:九日财经 | 九日传媒 > 深度 > 阅读()

    机器人前瞻12月11日报道,今天,星尘智能发布端到端全身VLA模型——Lumo-1,让机器人心手合一,想清楚就干活,借助具身化VLM、跨本体联合训练、推理-动作真机训练、以及强化学习校准对齐等方式,配合绳驱机器人S1的真机训练,将大模型“心智”转化为全身到手的丝滑操作。

    Lumo-1展现出较强的操作智能与泛化能力,在多步骤长时序、精细灵巧操作、可泛化抓取放置等三大类核心操作任务中,超越了π0、π0.5等先进模型,尤其在未见过的物体、场景和指令等分布外情况(Out of Distribution,简称OOD),以及抽象、模糊、需扩展推理的指令中,优势明显。

    通用抓取放置测试结果

    长时序与灵巧操作任务对比结果

    一、热面包、整理文具、打包食物,让机器人像人一样推理、行动

    人类执行复杂任务时不只是调用“动作库”,而是实时进行多层次推理——理解抽象语义、拆解子任务、感知空间关系、规划运动路径。

    从走路、跳舞到后空翻,动作模仿教会了机器人“怎么动”,而到端盘子、分拣水果、热食物等复杂操作时,机器人不能只模仿,更要识别复杂环境,理解“为什么做”的任务意图,再转化为“动手这么做”的连贯操作。

    Lumo-1就赋予了机器人像人一样推理,从而像人一样行动的能力。

    比如,尽管没见过这块面包,Lumo-1可以让机器人通过推理识别它,推理出加热=用微波炉,以及开门、拿起、放入、关门、旋钮、等待、取出等……无需编程,长序列全靠推理完成。

    图片

    机器人可以在混乱桌面中快速找齐文具,还能精细处理不同形状、材质和尺寸的物品。

    图片

    在执行把可乐放进蓝盘的任务时,当可乐靠近机器人左臂时,推理用左臂抓取;当人为在左臂与可乐间增加障碍物(未训练场景),实时推理出“左臂受阻→右臂绕行成本更低”,自主切换策略。

    图片

    机器人在给玩偶配对时,能推理出不同玩偶(雪宝、米妮、三眼怪)与纸片上哪个角色(艾尔莎、米奇、巴斯光年)来自同一动画。

    图片

    打包食物时,机器人全程快速丝滑,面对奥利奥、油条等分布外物体也能执行。

    图片

    在纸上机器人报个菜名,比如“肠仔意面”,它就能识别并挑选出对应食材。

    图片

    二、三阶训练,VLM认知转化为VLA智能

    Lumo-1包括了三阶段训练架构:

    阶段1:具身化VLM(Embodied VLM)

    在精选的视觉-语言数据上持续预训练,让模型具备空间理解、规划、轨迹推断等“具身语义”。Lumo-1在7个经典具身推理基准中大部分超过RoboBrain-7B、Robix-7B等专用模型。

    精选数据集旨在不损伤预训练VLM的通用多模态理解与推理能力前提下,强化核心具身推理能力

    阶段2:跨本体联合训练

    融合跨机器人、多视角轨迹、VLM数据上联合训练,强化了指令跟随、物体定位与空间推理能力,使模型开始理解“动作是什么,与指令和观测是什么关系”。

    Astribot S1机器人上收集的样本任务

    阶段3:真机推理-动作训练(S1轨迹)

    利用绳驱机器人Astribot S1高度仿人的示教轨迹,进行带推理过程的动作训练,让模型习得真实世界可执行的动作模式,比如:怎么用双手协同处理物体、如何执行长序列操作、如何将推理一步步落实为轨迹等。

    最后,加入强化学习推理-行动对齐(RL Alignment),校准对齐高级推理与低级动作之间的误差,设计了视觉、动作与推理一致、动作执行、推理格式等多维度的奖励信号,通过基于GRPO的学习方案鼓励模型选择更准确、连贯、符合物理规则的动作。

    实验表明,该方案使模型在任务成功率、动作合理性与泛化能力上显著超越模仿专家示范的原始表现。

    三、三大技术拆解:层层递进的“推理-动作”引擎

    1、动作空间建模:从”高频噪声”到”关键路径”

    在Lumo-1里,通过动作空间建模SAT(Spatial Action Tokenizer),机器人将动作轨迹转化为可复用、组合的“动作单词库”,能像写句子一样组合动作,或者复用、解释和预测动作。

    技术上,SAT将连续动作轨迹压缩成最短路径点,并把旋转/平移的增量动作聚类成紧凑token等,在保持动作空间意义时,减少数据收集引入的无关噪音,比FAST与分桶方法等更紧凑和稳定。

    2、结构化推理:让机器人拥有“常识与思考能力”

    Lumo-1将推理拆解为两个维度:文字推理与视觉推理。

    模型进行多种形式的具身文本推理:

    然后再进一步执行视觉推理,以实现基于感知的推断和运动估计。

    通过结构化推理(Structured Reasoning),机器人大脑不再死记轨迹,而是形成解释动作的结构化推理链,从执行动作到「执行想法」,使「为什么这样做」先于「怎么做」。

    最终,它把视觉理解映射为路径点预测,让2D预测自然落到3D控制上,实现更有目的性、情境化的动作生成。

    在S1真机部署中,让机器人“把代表爱情的花放进花瓶”,S1能理解玫瑰代表的文化隐喻;当指令换成”把KFC里的东西放进蓝色容器”,它能推理出炸鸡、汉堡等关联物品。在“把画海洋的工具放进绿盘子”这种任务中,S1也能准确找到蓝色的画笔。

    图片

    3、强化学习推理-行动对齐(RL Alignment)

    Lumo-1在最后加入强化学习推理-行动对齐(RL Alignment),校准对齐高级推理与低级动作之间的误差,在真实轨迹中反馈迭代,通过视觉、动作与推理一致、动作执行、推理格式等多维度GRPO风格奖励信号,鼓励模型选择更准确、连贯、符合物理规则的动作。

    四、AI模型能力提升,是机器人大规模落地的关键

    星尘智能团队采用数据受限扩展定律验证训练策略,结果显示:在固定模型规模下,数据多样性(场景、物体、指令的覆盖面)对泛化能力的影响远超数据重复次数。这说明了,除了堆数据量,也可以抓数据质量。

    另外,Lumo-1在7个多模态基准测试中的6个优于backbone模型Qwen2.5-VL-7B,并超越专门的具身模型RoboBrain-7B和Robix-7B。更关键的是,融入动作学习后,模型的核心多模态感知和推理能力未受损——这证明“推理”与“动作”并非零和博弈。

    目前,AI模型能力不足是导致了机器人没能真正大规模落地的关键原因。而当机器人不再只靠预设脚本,而是能够在开放环境中理解语义、拆解任务并自主执行时,具身智能也就加快从“能动”走向“会做事”的新阶段。

    特别声明:文章内容仅供参考,不造成任何投资建议。投资者据此操作,风险自担。

    网站首页 - 国内 - 国际 - 产业

    本站不良内容举报联系客服QQ:2768911 官方微信:jiuricaijing 服务热线:4008-121-221

    未经本站书面特别授权,请勿转载或建立镜像

    Copyright © 2002-2025 九日财经 版权所有 公司地址:广东省深圳市罗湖区桂园街道宝安南路蔡屋围发展大厦2302室 粤ICP备2025475172号-1 XMl地图 技术支持