| 序号 | 工作名称 | 提出时间 | 研究机构 | 是否开源 | 链接 | 详情 |
|---|---|---|---|---|---|---|
| 1 | CLIPort | 2021.09 (CoRL 2021) | University of Washington, NVIDIA | 是 | arXiv:2109.12098 | 详情论文 CLIPort: What and Where Pathways for Robotic Manipulation 规模 — 输入 RGB图像, 自然语言指令 输出 机器人操作动作(pick-and-place) 核心贡献 结合CLIP语义理解与Transporter Networks的空间精度,实现语言条件下的操作 |
| 2 | BC-Z | 2022.02 (CoRL 2021) | Google Research | 是 | arXiv:2202.02005 | 详情论文 BC-Z: Zero-Shot Task Generalization with Robotic Imitation Learning 规模 — 输入 RGB图像, 自然语言指令/视频演示 输出 机器人操作动作 核心贡献 通过大规模数据收集(25,000+机器人demo)实现零样本任务泛化 |
| 3 | GATO | 2022.05 (TMLR 2022) | DeepMind | 否 | arXiv:2205.06175 | 详情论文 A Generalist Agent 规模 1.2B 输入 多模态(图像, 文本, 本体感知, 关节力矩等) 输出 多模态(文本, 动作, 关节力矩等) 核心贡献 单一Transformer网络完成604种不同任务(Atari、图像描述、对话、机器人控制等) |
| 4 | VIMA | 2022.10 (ICML 2023) | Stanford, NVIDIA, Caltech, 清华, UT Austin | 是 | arXiv:2210.03094 | 详情论文 VIMA: General Robot Manipulation with Multimodal Prompts 规模 — 输入 多模态提示(交错的文本和视觉token) 输出 机器人动作(自回归) 核心贡献 通过多模态提示统一多种机器人操作任务,零样本泛化提升2.9倍 |
| 5 | RT-1 | 2022.12 | Google Research, Everyday Robots | 是 | arXiv:2212.06817 | 详情论文 RT-1: Robotics Transformer for Real-World Control at Scale 规模 — 输入 相机图像, 自然语言任务指令 输出 电机控制命令 核心贡献 基于Transformer的大规模机器人控制,130,000个episode、13个机器人、17个月数据训练 |
| 6 | UniPi | 2023.01 (NeurIPS 2023 Spotlight) | Google Brain | 部分 | arXiv:2302.00111 | 详情论文 Learning Universal Policies via Text-Guided Video Generation 规模 — 输入 文本描述, 当前图像帧 输出 视频序列(通过逆动力学提取动作) 核心贡献 将序列决策问题转化为文本条件视频生成问题,视频作为跨环境通用接口 |
| 7 | Diffusion Policy | 2023.03 (RSS 2023) | Columbia University, TRI, MIT | 是 | arXiv:2303.04137 | 详情论文 Diffusion Policy: Visuomotor Policy Learning via Action Diffusion 规模 — 输入 RGB图像, 机器人观测 输出 机器人动作(去噪扩散过程) 核心贡献 将视觉运动策略表示为条件去噪扩散过程,平均性能提升46.9% |
| 8 | ACT | 2023.04 (RSS 2023) | Stanford, Meta, UC Berkeley | 是 | arXiv:2304.13705 | 详情论文 Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware 规模 ~80M 输入 RGB图像(多相机), 关节位置, 本体感知 输出 动作块(未来k步动作序列) 核心贡献 预测固定长度的动作序列而非单步动作,提高时序连贯性和样本效率 |
| 9 | RT-2 | 2023.07 | Google DeepMind | 否 | arXiv:2307.15818 | 详情论文 RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control 规模 — 输入 相机图像, 自然语言指令 输出 机器人动作(文本token形式) 核心贡献 在VLM(PaLI-X/PaLM-E)上联合微调机器人数据和网络数据,将动作表示为语言token |
| 10 | RoboFlamingo | 2023.08 (ICLR 2024) | ByteDance, 清华, 上海交大, NUS 等 | 是 | arXiv:2311.01378 | 详情论文 Vision-Language Foundation Models as Effective Robot Imitators 规模 3B/4B/9B(基于OpenFlamingo) 输入 图像, 自然语言指令 输出 机器人操作动作 核心贡献 将预训练VLM(OpenFlamingo)适配用于机器人模仿学习,在CALVIN上达SOTA |
| 11 | RT-X | 2023.10 (ICRA 2024) | Open X-Embodiment Collaboration (21家机构) | 是 | arXiv:2310.08864 | 详情论文 Open X-Embodiment: Robotic Learning Datasets and RT-X Models 规模 — 输入 多机器人观测(图像、本体感知等) 输出 跨具身机器人动作 核心贡献 21家机构、22种机器人、527种技能的标准化数据集,证明跨机器人正迁移 |
| 12 | LEO | 2023.11 (ICML 2024) | BIGAI, 北京大学, CMU, 清华 | 是 | arXiv:2311.12871 | 详情论文 An Embodied Generalist Agent in 3D World 规模 — 输入 2D图像(自我中心), 3D点云, 语言指令 输出 机器人动作, 3D描述, 导航命令 核心贡献 3D世界中的多模态通才Agent,融合2D/3D视觉编码器和LLM |
| 13 | GR-1 | 2023.12 (ICLR 2024) | ByteDance | 是 | arXiv:2312.13139 | 详情论文 Unleashing Large-Scale Video Generative Pre-training for Visual Robot Manipulation 规模 — 输入 语言指令, 观测图像序列, 机器人状态 输出 机器人动作, 未来图像 核心贡献 GPT风格Transformer进行大规模视频生成预训练+机器人数据微调,CALVIN 94.9%成功率 |
| 序号 | 工作名称 | 提出时间 | 研究机构 | 是否开源 | 链接 | 详情 |
|---|---|---|---|---|---|---|
| 14 | 3D-VLA | 2024.03 | UMass Amherst | 是 | arXiv:2403.09631 | 详情论文 3D-VLA: A 3D Vision-Language-Action Generative World Model 规模 — 输入 3D点云, 图像, 语言指令 输出 机器人动作, 目标图像, 目标点云 核心贡献 引入3D世界模型的VLA,在规划动作前推理未来场景 |
| 15 | RT-H | 2024.03 (RSS 2024) | Google DeepMind, Stanford | 否 | arXiv:2403.01823 | 详情论文 RT-H: Action Hierarchies Using Language 规模 — 输入 视觉观测, 语言指令 输出 语言运动描述(中间层), 机器人动作 核心贡献 用语言运动作为高级任务和低级动作间的中间层,支持人类语言纠正 |
| 16 | Octo | 2024.05 | 多机构 (Octo Team) | 是 | arXiv:2405.12213 | 详情论文 Octo: An Open-Source Generalist Robot Policy 规模 27M/93M 输入 图像(腕部/第三方相机), 语言/目标图像, 本体感知 输出 机器人动作 核心贡献 开源Transformer扩散策略,800k轨迹训练,可在消费级GPU上高效微调 |
| 17 | LLARVA | 2024.06 (CoRL 2024) | UC Berkeley | 是 | arXiv:2406.11815 | 详情论文 LLARVA: Vision-Action Instruction Tuning Enhances Robot Learning 规模 — 输入 图像, 语言指令, 本体感知 输出 机器人动作, 视觉轨迹 核心贡献 引入视觉-动作指令微调和"视觉轨迹"中间表征 |
| 18 | OpenVLA | 2024.06 | Stanford, UC Berkeley, MIT等 | 是 | arXiv:2406.09246 | 详情论文 OpenVLA: An Open-Source Vision-Language-Action Model 规模 7B 输入 图像(SigLIP+DINOv2), 语言指令 输出 token化机器人动作 核心贡献 开源7B VLA,以7倍少的参数超越RT-2-X(55B) 16.5%成功率 |
| 19 | RoboMamba | 2024.06 (NeurIPS 2024) | 北京大学, BAAI, AI2Robotics | 是 | arXiv:2406.04339 | 详情论文 RoboMamba: Efficient Vision-Language-Action Model for Robotic Reasoning and Manipulation 规模 — 输入 图像, 语言指令 输出 机器人动作, SE(3)位姿 核心贡献 用Mamba(SSM)架构实现3倍推理加速,仅需0.1%参数微调 |
| 20 | ECoT | 2024.07 (CoRL 2024) | Stanford, UC Berkeley | 是 | arXiv:2407.08693 | 详情论文 Robotic Control via Embodied Chain-of-Thought Reasoning 规模 — 输入 图像, 语言指令, 机器人状态 输出 多步推理, 机器人动作 核心贡献 训练VLA在执行动作前进行具身推理,OpenVLA成功率提升28% |
| 21 | Gen2Act | 2024.09 (CoRL 2025) | Google DeepMind, CMU, Stanford | — | arXiv:2409.16283 | 详情论文 Gen2Act: Human Video Generation in Novel Scenarios enables Generalizable Robot Manipulation 规模 — 输入 语言指令, 图像 输出 生成的人类演示视频, 机器人动作 核心贡献 两阶段:先生成人类演示视频,再基于视频执行策略,实现零样本泛化 |
| 22 | TinyVLA | 2024.09 (RA-L 2025) | 美的集团, 华东师范大学, 上海大学, 北京人形机器人创新中心 | 是 | arXiv:2409.12514 | 详情论文 TinyVLA: Towards Fast, Data-Efficient Vision-Language-Action Models for Robotic Manipulation 规模 — 输入 图像, 语言指令 输出 机器人动作(扩散策略解码器) 核心贡献 紧凑型VLA,推理速度比OpenVLA快20倍,无需大规模预训练 |
| 23 | HPT | 2024.09 (NeurIPS 2024 Spotlight) | MIT CSAIL, Meta AI | 是 | arXiv:2409.20537 | 详情论文 Scaling Proprioceptive-Visual Learning with Heterogeneous Pre-trained Transformers 规模 1B 输入 本体感知, 视觉(不同具身) 输出 机器人控制动作 核心贡献 预训练共享Transformer主干学习任务和具身无关表征,52个数据集200k+轨迹 |
| 24 | HiRT | 2024.09 | 清华大学, UC Berkeley | 是 | arXiv:2410.05273 | 详情论文 HiRT: Enhancing Robotic Control with Hierarchical Robot Transformers 规模 InstructBLIP 7B + 轻量策略 输入 RGB图像, 语言指令 输出 机器人动作 核心贡献 层级架构:低频VLM语义理解+高频轻量策略实时控制,推理延迟降低58% |
| 25 | RDT | 2024.10 | 清华大学 | 是 | arXiv:2410.07864 | 详情论文 RDT-1B: a Diffusion Foundation Model for Bimanual Manipulation 规模 1.2B 输入 RGB图像(3视角), 语言指令, 控制频率, 本体感知 输出 机器人动作(预测64步) 核心贡献 最大的扩散基础模型用于双臂操作,物理可解释统一动作空间 |
| 26 | LAPA | 2024.10 | KAIST, UW, Microsoft, NVIDIA, AI2 | 是 | arXiv:2410.11758 | 详情论文 Latent Action Pretraining from Videos 规模 7B 输入 RGB图像, 语言指令 输出 潜在动作→机器人动作 核心贡献 首个无需动作标签的VLA预训练方法,从视频学习潜在动作,效率提升30倍 |
| 27 | π₀ | 2024.10 | Physical Intelligence | 是 | arXiv:2410.24164 | 详情论文 π₀: A Vision-Language-Action Flow Model for General Robot Control 规模 — 输入 RGB图像, 语言指令 输出 连续机器人动作(flow matching) 核心贡献 基于flow matching的VLA,继承VLM语义知识,跨平台通用机器人控制 |
| 28 | RoboDual | 2024.10 | 上海交大, 上海AI Lab, 港大, AgiBot | 是 | arXiv:2410.08001 | 详情论文 Towards Synergistic, Generalized, and Efficient Dual-System for Robotic Manipulation 规模 专家20M + VLA 输入 RGB图像, 语言提示 输出 机器人动作(多步) 核心贡献 通才VLA+专家扩散策略双系统,真实任务提升26.7%,频率提升3.8倍 |
| 29 | CogACT | 2024.11 | Microsoft Research Asia, 清华, USTC | 是 | arXiv:2411.19650 | 详情论文 CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation 规模 ~7B 输入 RGB图像, 语言指令 输出 连续动作序列(扩散Transformer) 核心贡献 组件化VLA架构,解耦认知与动作预测,仿真成功率+35%,实机+55% |
| 30 | GR-2 | 2024.10 | ByteDance Research | 部分 | arXiv:2410.06158 | 详情论文 GR-2: A Generative Video-Language-Action Model with Web-Scale Knowledge for Robot Manipulation 规模 — 输入 视频帧, 语言指令 输出 机器人动作, 视频生成 核心贡献 38M视频clips预训练捕获世界动态,100+任务97.7%平均成功率 |
| 31 | VPP | 2024.12 | 清华, UC Berkeley, 上海AI Lab, Robot Era | 是 | arXiv:2412.14803 | 详情论文 Video Prediction Policy: A Generalist Robot Policy with Predictive Visual Representations 规模 — 输入 RGB图像, 语言指令 输出 机器人动作 核心贡献 利用视频扩散模型的预测视觉表征学习控制,CALVIN提升18.6% |
| 32 | RoboVLMs | 2024.12 | 清华, ByteDance, CASIA, 上海交大, NUS | 是 | arXiv:2412.14058 | 详情论文 Towards Generalist Robot Policies: What Matters in Building Vision-Language-Action Models 规模 — 输入 RGB图像, 语言指令 输出 机器人动作 核心贡献 系统性研究VLA设计选择,600+实验、8+VLM骨干、4种策略架构 |
| 33 | TraceVLA | 2024.12 | UMD, Microsoft Research | 是 | arXiv:2412.10345 | 详情论文 TraceVLA: Visual Trace Prompting Enhances Spatial-Temporal Awareness for Generalist Robotic Policies 规模 7B / 4B 输入 RGB图像(叠加视觉轨迹), 语言指令 输出 机器人动作 核心贡献 视觉轨迹提示增强时空感知,实机任务性能提升3.5倍 |
| 34 | FLIP | 2024.12 | NUS | — | arXiv:2412.08261 | 详情论文 FLIP: Flow-Centric Generative Planning as General-Purpose Manipulation World Model 规模 — 输入 RGB图像, 语言指令 输出 图像流, 视频计划, 机器人动作 核心贡献 基于模型规划框架,图像流作为通用动作表示,合成长时域计划 |
| 35 | DiVLA | 2024.12 | Midea Group等 | — | arXiv:2412.03293 | 详情论文 Diffusion-VLA: Generalizable and Interpretable Robot Foundation Model via Self-Generated Reasoning 规模 2B–72B 输入 RGB图像, 语言指令 输出 机器人动作(扩散模型)+ 自生成推理 核心贡献 统一自回归模型(推理)与扩散模型(动作),推理注入模块 |
| 序号 | 工作名称 | 提出时间 | 研究机构 | 是否开源 | 链接 | 详情 |
|---|---|---|---|---|---|---|
| 36 | π₀-FAST | 2025.01 | Physical Intelligence, UC Berkeley, Stanford | 是 | arXiv:2501.09747 | 详情论文 FAST: Efficient Action Tokenization for Vision-Language-Action Models 规模 基于π₀ (3B骨干) 输入 图像观测, 语言指令 输出 机器人动作(FAST tokenization) 核心贡献 频域动作序列token化(DCT),训练速度提升5倍,保持精度 |
| 37 | SpatialVLA | 2025.01 | 上海AI Lab, ShanghaiTech, TeleAI | 是 | arXiv:2501.15830 | 详情论文 SpatialVLA: Exploring Spatial Representations for Visual-Language-Action Models 规模 3.5B 输入 图像观测, 语言指令 输出 机器人动作(7D) 核心贡献 引入Ego3D位置编码注入3D空间信息,自适应动作网格离散化 |
| 38 | UP-VLA | 2025.01 (ICML 2025) | 清华大学, 上海齐智研究所 | 是 | arXiv:2501.18867 | 详情论文 UP-VLA: A Unified Understanding and Prediction Model for Embodied Agent 规模 — 输入 图像观测, 语言指令 输出 机器人动作, 未来图像预测 核心贡献 统一多模态理解与未来预测的训练范式 |
| 39 | DexVLA | 2025.02 | Midea Group, 华东师范大学 | 是 | arXiv:2502.05855 | 详情论文 DexVLA: Vision-Language Model with Plug-In Diffusion Expert for General Robot Control 规模 扩散专家1B 输入 视觉, 语言, 机器人状态 输出 机器人动作(扩散动作专家) 核心贡献 插件式扩散动作专家(1B)+具身课程学习,支持单臂/双臂/灵巧手 |
| 40 | Magma | 2025.02 (CVPR 2025) | Microsoft Research, UMD, UW-Madison, KAIST, UW | 是 | arXiv:2502.13130 | 详情论文 Magma: A Foundation Model for Multimodal AI Agents 规模 8B 输入 视觉, 语言, 时空信息 输出 数字/物理环境中的动作 核心贡献 VLM扩展空间时序智能(SoM+ToM),统一数字和物理世界Agent |
| 41 | ARM4R | 2025.02 (ICML 2025) | UC Berkeley | 是 | arXiv:2502.13142 | 详情论文 Pre-training Auto-regressive Robotic Models with 4D Representations 规模 — 输入 自我中心人类视频, 机器人演示 输出 机器人本体状态和动作 核心贡献 4D表征(3D点跟踪随时间)从人类视频预训练机器人模型 |
| 42 | ChatVLA | 2025.02 (EMNLP 2025) | Midea Group, 华东师范大学, 上海大学, 清华等 | — | arXiv:2502.14420 | 详情论文 ChatVLA: Unified Multimodal Understanding and Robot Control with Vision-Language-Action Model 规模 — 输入 视觉, 语言, 多模态数据 输出 机器人动作 + 多模态理解输出 核心贡献 分阶段对齐训练+MoE解决VLA训练中的遗忘和任务干扰 |
| 43 | Hi Robot | 2025.02 | Physical Intelligence, Stanford, UC Berkeley | — | arXiv:2502.19417 | 详情论文 Hi Robot: Open-Ended Instruction Following with Hierarchical Vision-Language-Action Models 规模 — 输入 视觉, 语言, 实时反馈 输出 机器人动作(层级双系统) 核心贡献 层级系统:高层VLM推理分解+低层π₀执行,支持实时反馈纠正,复杂任务85%成功率 |
| 44 | OpenVLA-OFT | 2025.02 (RSS 2025) | Stanford University | 是 | arXiv:2502.19645 官网 Code | 详情论文 Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success 规模 基于 OpenVLA (7B),OFT 微调(LoRA 等参数高效) 输入 图像(第三方/腕部多视角), 语言指令, 本体感知 输出 连续机器人动作(并行解码、动作块) 核心贡献 优化微调方案(OFT):并行解码+动作分块+连续动作表示+L1 回归,可选 FiLM 增强语言理解;LIBERO 四套任务平均成功率 97.1%(SOTA),动作生成吞吐约 26×、延迟约 3× 降低;ALOHA 双臂真机 25Hz 控制,优于微调 VLA(π₀、RDT-1B)与从零训练策略(ACT、Diffusion Policy);RSS 2025 接收 |
| 45 | DexGraspVLA | 2025.02 (AAAI 2026 Oral) | 北京大学, HKUST(GZ), UPenn | 是 | arXiv:2502.20900 | 详情论文 DexGraspVLA: A Vision-Language-Action Framework Towards General Dexterous Grasping 规模 — 输入 视觉, 语言, 深度信息 输出 灵巧抓取动作 核心贡献 层级VLM规划器+扩散控制器,零样本灵巧抓取成功率90%+ |
| 46 | GO-1 | 2025.03 | AgiBot, OpenDriveLab, 上海创新研究院 | 是 | arXiv:2503.06669 | 详情论文 GO-1 (AgiBot World Colosseo) 规模 — 输入 视觉, 语言, 机器人状态 输出 潜在动作token (ViLLA框架) 核心贡献 100+台G1机器人1M+轨迹训练,比RDT提升32%,比OXE策略提升30% |
| 47 | HybridVLA | 2025.03 | 北京大学, BAAI, CUHK | 是 | arXiv:2503.10631 | 详情论文 HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model 规模 7B 输入 视觉, 语言, 机器人状态 输出 机器人动作(协同扩散+自回归) 核心贡献 在单一LLM中统一自回归和扩散动作预测,仿真+14%,实机+19% |
| 48 | GR00T N1 | 2025.03 | NVIDIA | 是 | arXiv:2503.14734 | 详情论文 GR00T N1: An Open Foundation Model for Generalist Humanoid Robots 规模 2B / 3B 输入 视觉, 语言, 本体感知 输出 机器人动作(扩散Transformer) 核心贡献 开源人形机器人VLA,双系统架构(VLM+扩散Transformer),混合真实/合成数据训练 |
| 49 | Gemini Robotics | 2025.03 | Google DeepMind | 否 | arXiv:2503.20020 | 详情论文 Gemini Robotics: Bringing AI into the Physical World 规模 — (基于Gemini 2.0) 输入 视觉, 语言指令 输出 电机控制命令 核心贡献 基于Gemini 2.0的VLA,在通用性、交互性和灵巧性方面取得重大进展 |
| 50 | CoT-VLA | 2025.03 (CVPR 2025) | Stanford, MIT, NVIDIA等 | 是 | arXiv:2503.22020 | 详情论文 CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models 规模 7B 输入 视觉, 语言, 机器人观测 输出 未来图像帧(视觉目标) + 动作序列 核心贡献 预测未来图像帧作为视觉思维链,实机任务提升17% |
| 51 | π₀.₅ | 2025.04 (CoRL 2025) | Physical Intelligence | — | arXiv:2504.16054 | 详情论文 π₀.₅: a Vision-Language-Action Model with Open-World Generalization 规模 — 输入 图像, 语言, 物体检测, 语义子任务 输出 低级机器人动作, 中间子任务预测 核心贡献 异构任务协同训练实现开放世界泛化,可执行10-15分钟的长时域任务 |
| 52 | NORA | 2025.04 | DeCLaRe Lab 等 | 是 | arXiv:2504.19854 | 详情论文 NORA: A Small Open-Sourced Generalist Vision Language Action Model for Embodied Tasks 规模 3B 输入 图像观测, 语言指令 输出 机器人动作 核心贡献 紧凑3B VLA,基于Qwen-2.5-VL-3B+FAST+tokenizer,性能媲美大模型 |
| 53 | GraspVLA | 2025.05 (CoRL 2025) | 北京大学, 港大, BAAI, Galbot | 部分 | arXiv:2505.03233 | 详情论文 GraspVLA: a Grasping Foundation Model Pre-trained on Billion-scale Synthetic Action Data 规模 — 输入 视觉, 语言, 合成抓取数据 输出 机器人抓取动作 核心贡献 首个在十亿级合成数据(SynGrasp-1B)上预训练的抓取VLA |
| 54 | Helix | 2025.05 | Figure AI | 部分 | arXiv:2505.03912 (OpenHelix) | 详情论文 Helix: A Vision-Language-Action Model for Generalist Humanoid Control 规模 — 输入 视觉, 语言, 本体感知 输出 全身人形机器人高频连续控制 核心贡献 首个输出全人形上身高频连续控制的VLA,支持双机器人协作 |
| 55 | 3D-CAVLA | 2025.05 (CVPR 2025 Workshop) | NYU | 是 | arXiv:2505.05800 | 详情论文 3D-CAVLA: Leveraging Depth and 3D Context to Generalize VLA Models for Unseen Tasks 规模 基于LLaMA2-7B 输入 视觉, 语言, 深度, 3D上下文 输出 机器人操作动作 核心贡献 链式思维推理+深度感知+任务导向ROI检测,LIBERO 98.1%,未见任务+8.8% |
| 56 | UniVLA | 2025.05 | OpenDriveLab (BAAI Vision) | 是 | arXiv:2505.06111 | 详情论文 UniVLA: Learning to Act Anywhere with Task-centric Latent Actions 规模 — 输入 视觉, 语言, 异构数据 输出 潜在动作token 核心贡献 任务中心潜在动作学习,仅需960 A100-hours (vs 21,500),跨具身泛化 |
| 57 | OneTwoVLA | 2025.05 | 清华大学, 上海齐智研究所, 上海AI Lab, 复旦 | 是 | arXiv:2505.11917 | 详情论文 OneTwoVLA: A Unified Vision-Language-Action Model with Adaptive Reasoning 规模 — 输入 图像观测, 语言指令 输出 机器人动作 + 推理token 核心贡献 自适应切换System 1/2,在关键时刻触发显式推理 |
| 58 | Hume | 2025.05 | 上海交大, 上海AI Lab, 浙大, AgiBot, 复旦 | 是 | arXiv:2505.21432 | 详情论文 Hume: Introducing System-2 Thinking in Visual-Language-Action Model 规模 — 输入 视觉, 语言, 机器人状态 输出 机器人动作(双系统架构) 核心贡献 引入System-2思考:价值引导低频深度思考+System-1实时级联动作去噪 |
| 59 | ChatVLA-2 | 2025.05 (NeurIPS 2025) | Midea Group, 华东师范大学 | — | arXiv:2505.21906 | 详情论文 ChatVLA-2: Vision-Language-Action Model with Open-World Embodied Reasoning from Pretrained Knowledge 规模 — 输入 图像观测, 语言指令 输出 机器人动作 + 推理输出 核心贡献 MoE架构+两阶段训练保留VLM能力,支持开放世界具身推理 |
| 60 | Robot-R1 | 2025.05 | KAIST, Yonsei, UC Berkeley | — | arXiv:2506.00070 | 详情论文 Robot-R1: Reinforcement Learning for Enhanced Embodied Reasoning in Robotics 规模 7B 输入 场景图像, 环境元数据, 语言指令 输出 关键点状态预测, 机器人动作 核心贡献 RL增强具身推理,7B模型超越GPT-4o的空间/运动推理能力 |
| 61 | SmolVLA | 2025.06 | Hugging Face (LeRobot) | 是 | arXiv:2506.01844 | 详情论文 SmolVLA: A Vision-Language-Action Model for Affordable and Efficient Robotics 规模 450M 输入 多相机视角, 机器人感觉运动状态, 语言指令 输出 连续机器人动作 核心贡献 紧凑450M VLA,性能媲美10倍大模型,单GPU训练和消费级硬件部署 |
| 62 | FiS-VLA (Fast-in-Slow) | 2025.06 (NeurIPS 2025) | 北京大学, 港中文, 智平方, 智源 BAAI | 是 | arXiv:2506.01953 | 详情论文 Fast-in-Slow: A Dual-System Foundation Model Unifying Fast Manipulation within Slow Reasoning 规模 — 输入 系统2: 2D 图像+语言;系统1: 3D 点云+图像+机器人状态 输出 机器人动作 核心贡献 异构输入+异步频率的双系统 VLA:将 VLM 最后几层重构为快执行模块(系统1)嵌入慢推理(系统2)内;控制频率 117.7 Hz(动作块8),仿真+8%、真机+11%,AgileX/AlphaBot 真机 68%/74% 成功率 |
| 63 | BitVLA | 2025.06 | 中科院等 | 是 | arXiv:2506.07530 | 详情论文 BitVLA: 1-bit Vision-Language-Action Models for Robotics Manipulation 规模 — 输入 图像, 语言指令 输出 机器人动作 核心贡献 首次将1-bit量化应用于VLA,三值参数{-1,0,1},仅29.8%内存 |
| 64 | Fast ECoT | 2025.06 | UCL, U. of Freiburg, Cisco Research | — | arXiv:2506.07639 | 详情论文 Fast ECoT: Efficient Embodied Chain-of-Thought via Thoughts Reuse 规模 — 输入 视觉, 语言, 机器人状态 输出 机器人动作(加速ECoT推理) 核心贡献 缓存复用高层推理+并行模块推理+异步调度,延迟降低7.5倍,无需重训 |
| 65 | CoA | 2025.06 (NeurIPS 2025) | ByteDance Seed, NUS, 阿德莱德大学, CAS, CSIRO | 是 | arXiv:2506.09990 | 详情论文 Chain-of-Action: Trajectory Autoregressive Modeling for Robotic Manipulation 规模 — 输入 图像, 语言指令 输出 机器人动作轨迹 核心贡献 逆向推理生成动作轨迹(从目标到当前状态),动作级思维链 |
| 66 | SP-VLA | 2025.06 | 清华大学, 港中文, 上海AI Lab, UIUC | — | arXiv:2506.12723 | 详情论文 SP-VLA: A Joint Model Scheduling and Token Pruning Approach for VLA Model Acceleration 规模 — 输入 图像, 语言指令 输出 机器人动作 核心贡献 动作感知模型调度+时空语义双感知token剪枝,加速1.5-2.4倍 |
| 67 | WorldVLA | 2025.06 | 阿里巴巴达摩院 | 是 | arXiv:2506.21539 | 详情论文 WorldVLA: Towards Autoregressive Action World Model 规模 7B 输入 视觉, 语言, 机器人状态 输出 机器人动作 + 未来图像预测 核心贡献 统一VLA与世界模型,注意力掩码策略缓解自回归误差传播 |
| 68 | UniAct | 2025.06 (CVPR 2025) | — | 是 | arXiv:2512.24321 | 详情论文 Universal Actions for Enhanced Embodied Foundation Models 规模 0.5B 输入 图像观测, 语言指令 输出 通用动作→机器人特定命令 核心贡献 统一异构动作表示的通用动作空间,学习跨机器人通用原子行为 |
| 69 | TriVLA | 2025.07 | 复旦大学 | — | arXiv:2507.01424 | 详情论文 TriVLA: A Triple-System-Based Unified VLA with Episodic World Modeling for General Robot Control 规模 — 输入 图像, 语言指令 输出 机器人动作 核心贡献 三系统架构(策略学习+视觉语言+动态感知)+情景世界模型 |
| 70 | DreamVLA | 2025.07 (NeurIPS 2025) | 上海交大, 清华, Galbot, 北大, UIUC, 中科大等 | 是 | arXiv:2507.04447 | 详情论文 DreamVLA: A VLA Model Dreamed with Comprehensive World Knowledge 规模 — 输入 图像, 语言指令 输出 机器人动作 + 世界知识预测(动态区域、深度、语义) 核心贡献 感知-预测-动作环路,预测中间世界知识表征而非图像 |
| 71 | GR-3 | 2025.07 | ByteDance Seed (硬件: Fourier Intelligence) | — | arXiv:2507.15493 | 详情论文 GR-3 Technical Report 规模 — 输入 语言指令, 环境观测, 机器人状态 输出 双臂移动机器人动作块 核心贡献 VLM+动作预测的大规模VLA,多面训练(网络数据+人类VR数据+机器人数据) |
| 72 | GR-RL | 2025.12 | ByteDance Seed | — | arXiv:2512.01801 | 详情论文 GR-RL: Going Dexterous and Precise for Long-Horizon Robotic Manipulation 规模 约 5B(MoT 架构,Qwen2.5-VL 骨干 + 51.5M 噪声预测器) 输入 图像, 语言指令, 机器人状态 输出 机器人动作 核心贡献 将通用 VLA(GR-3) 转为长时域灵巧操作策略:离线数据过滤(TD3+BC 任务进度)+形态对称数据增强+在线强化学习(隐空间噪声预测);真机穿鞋带任务成功率从 GR-3 基线 45.7% 提升至 83.3%,具备纠错与重试能力 |
| 73 | StereoVLA | 2025.12 | Galbot, 北京大学, 港大, 中科院自动化所, BAAI 等 | 是 | arXiv:2512.21970 Code | 详情论文 StereoVLA: Enhancing Vision-Language-Action Models with Stereo Vision 规模 — 输入 立体双目图像, 自然语言指令 输出 机器人操作动作 核心贡献 将立体视觉引入 VLA:提出几何-语义特征提取模块(几何特征来自双目视差、语义特征来自单目),融合几何与语义;辅助交互区域深度估计任务增强空间感知并加速收敛;在立体设定下多类操作任务显著优于基线,对相机位姿变化具有强鲁棒性 |
| 序号 | 工作名称 | 提出时间 | 研究机构 | 是否开源 | 链接 | 详情 |
|---|---|---|---|---|---|---|
| 74 | ActiveVLA | 2026-01-13 | 复旦大学, 上海创新研究院, 南洋理工 | 是 | arXiv:2601.08325 | 详情论文 ActiveVLA: Injecting Active Perception into Vision-Language-Action Models for Precise 3D Robotic Manipulation 规模 — 输入 多视角 2D/3D, 语言指令 输出 机器人动作 核心贡献 主动感知:粗到细关键区域定位 + 主动视角选择与 3D zoom-in;RLBench/COLOSSEUM/GemBench SOTA,较基线提升最高 41%,可迁移真机 |
| 75 | LingBot-VLA | 2026-01-26 | 蚂蚁灵波 (Robbyant / Ant Group) | 是 | arXiv:2601.18692 | 详情论文 A Pragmatic VLA Foundation Model 规模 基于 Qwen2.5-VL-3B + Flow Matching 动作专家 输入 图像(可配深度), 语言指令, 本体感知 输出 连续机器人动作 核心贡献 约 2 万小时真机数据、9 种双臂构型预训练;GM-100 真机基准跨本体泛化 17.3%(含深度),RoboTwin 2.0 较 π₀.₅ 提升 9.92%;LingBot-Depth 深度蒸馏增强空间感知;训练效率较 StarVLA/OpenPI 约 1.5–2.8×,80 条演示即可任务迁移;全面开源 |
| 76 | GeneralVLA | 2026-02-04 | AIGeeksGroup(GitHub 组织,作者含 Zeyu Zhang 等) | 是 | arXiv:2602.04315 | 详情论文 GeneralVLA: Generalizable Vision-Language-Action Models with Knowledge-Guided Trajectory Planning 规模 — 输入 视觉, 语言指令 输出 机器人轨迹/动作 核心贡献 零样本泛化:分层架构(affordance 分割 + 3D 轨迹规划 + 3D 感知控制),无需真实机器人数据;14 个任务轨迹生成优于 VoxPoser |
| 77 | ST4VLA | 2026-02-10 (ICLR 2026) | 上海 AI Lab, 复旦大学, 港科大, 南科大 等 | — | arXiv:2602.10109 | 详情论文 ST4VLA: Spatially Guided Training for Vision-Language-Action Models 规模 — 输入 图像, 语言指令 输出 机器人动作 核心贡献 空间引导训练:空间 grounding 预训练(点/框/轨迹预测)+ 空间引导动作后训练;Google Robot SimplerEnv 66.1→84.6,WidowX 54.7→73.2,未见物体泛化与鲁棒性提升 |
| 78 | Xiaomi-Robotics-0 | 2026-02-13 | 小米 (Xiaomi) | 是 | arXiv:2602.12684 Code | 详情论文 Xiaomi-Robotics-0: An Open-Sourced Vision-Language-Action Model with Real-Time Execution 规模 4.7B(Qwen3-VL-4B 骨干 + 700M DiT 动作) 输入 图像, 语言指令 输出 机器人动作序列 核心贡献 异步执行实现消费级 GPU 实时推理;LIBERO 98.7%、CALVIN 4.75–4.80、SimplerEnv 85.5%/74.7%/79.2%;双臂 Lego 拆解/毛巾折叠真机;Apache 2.0 开源 |
| 79 | RynnBrain | 2026-02-13 | 阿里达摩院 (Alibaba DAMO Academy) | 是 | arXiv:2602.14979 Code | 详情论文 RynnBrain: Open Embodied Foundation Models 规模 2B / 8B / 30B-A3B (MoE) 输入 视觉, 语言, 时空上下文 输出 具身理解/规划/动作(变体 RynnBrain-VLA/Plan/Nav/CoP) 核心贡献 开放具身基础模型:自我中心理解、时空定位、物理推理、物理感知规划;20 个具身基准 + 8 个通用视觉基准领先;开源 Hugging Face/ModelScope |
| 80 | SimVLA | 2026-02-20 | Frontier Robotics(作者含 Zhenguo Li 等) | — | arXiv:2602.18224 | 详情论文 SimVLA: A Simple VLA Baseline for Robotic Manipulation 规模 0.5B 输入 图像, 语言指令 输出 机器人动作 核心贡献 极简基线:严格解耦感知与控制,无机器人预训练;仿真 SOTA,真机性能媲美 π₀.₅ 等大模型 |
| 81 | SC-VLA (Self-Correcting VLA) | 2026-02-25 | 电子科技大学 等(通讯作者 Heng Tao Shen) | — | arXiv:2602.21633 | 详情论文 Self-Correcting VLA: Online Action Refinement via Sparse World Imagination 规模 — 输入 图像, 语言指令 输出 机器人动作(在线细化) 核心贡献 稀疏世界想象 + 辅助预测头(任务进度、未来轨迹);步数减少 16%、成功率 +9%,真机 +14% |
| 82 | DySL-VLA | 2026-02-26 | 北京大学 (PKU-SEC-Lab) 等 | — | arXiv:2602.22896 | 详情论文 DySL-VLA: Efficient Vision-Language-Action Model Inference via Dynamic-Static Layer-Skipping for Robot Manipulation 规模 — 输入 图像, 语言指令 输出 机器人动作 核心贡献 按动作重要性动态-静态层跳跃推理;较 RoboFlamingo 3.75× 加速、参数减 85.7×、精度 +2.1% |
| 83 | DAM-VLA | 2026-03-01 (ICRA 2026) | 三星电子, 汉阳大学 (Samsung AI / Hanyang University HPI Lab) 等 | — | arXiv:2603.00926 | 详情论文 DAM-VLA: A Dynamic Action Model-Based Vision-Language-Action Framework for Robot Manipulation 规模 — 输入 视觉, 语言指令 输出 机器人动作(手臂/夹爪路由) 核心贡献 VLM 推理 + 扩散动作模型;动作路由(手臂运动 vs 夹爪操作)+ 双尺度加权;SIMPLER、FurnitureBench 及真机长时域/接触密集任务优于 SOTA |
| 维度 | 统计 |
|---|---|
| 总计模型数 | 83 个 |
| 开源比例 | ~60%+ 完全开源 |
| 模型参数范围 | 27M (Octo-Small) → 72B (DiVLA) |
| 最常见参数量 | 7B(OpenVLA, LAPA, TraceVLA, CogACT, CoT-VLA, HybridVLA, WorldVLA, Robot-R1等) |
| 主要输入模态 | 视觉(RGB/深度/点云) + 自然语言指令 + 本体感知 |
| 主要输出模态 | 连续/离散机器人动作,部分同时输出视频/图像预测、推理链 |
| 重要发展趋势 | 扩散模型动作生成、层级/双系统架构、思维链推理、世界模型集成、轻量化/量化、跨具身泛化;2026 年:具身基础模型(RynnBrain)、零样本/知识引导(GeneralVLA)、动态动作路由(DAM-VLA)、主动感知(ActiveVLA)、实时执行(Xiaomi-Robotics-0)等 |
- 动作生成范式:从早期的直接回归 → 扩散策略(Diffusion Policy) → Flow Matching(π₀) → 自回归token化(FAST) → 混合方案(HybridVLA)
- 架构演进:单一模型 → 双系统(System 1/2) → 三系统(TriVLA) → MoE(ChatVLA)
- 推理能力:无推理 → ECoT显式推理 → CoT-VLA视觉思维链 → DreamVLA世界知识预测
- 数据效率:从需要大量机器人数据 → 利用互联网视频(LAPA/GR-2) → 合成数据(GraspVLA) → 人类视频(ARM4R)
- 效率优化:模型压缩(BitVLA 1-bit)、小型化(SmolVLA 450M)、推理加速(Fast ECoT 7.5×)、token剪枝(SP-VLA)、VLA 微调加速(OpenVLA-OFT 26× 吞吐)、层跳跃推理(DySL-VLA 3.75× 加速)
- 产业化:Google(Gemini Robotics)、NVIDIA(GR00T N1)、Physical Intelligence(π₀系列)、ByteDance(GR系列/GR-RL)、Midea(ChatVLA/DexVLA/DiVLA)、蚂蚁灵波(LingBot-VLA)、阿里(RynnBrain)、小米(Xiaomi-Robotics-0)、Figure AI(Helix)、AgiBot(GO-1)等企业深度参与
- 2026 年趋势:空间引导训练(ST4VLA)、主动感知(ActiveVLA)、具身基础模型(RynnBrain)、零样本/知识引导(GeneralVLA)、动态动作路由(DAM-VLA)、自纠正与世界想象(SC-VLA)、极简基线(SimVLA)、消费级实时执行(Xiaomi-Robotics-0)等