Skip to content

leo038/Awesome-VLA

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

15 Commits
 
 
 
 

Repository files navigation

VLA(Vision-Language-Action)模型发展全景汇总表

一、萌芽阶段(2022–2023)

序号工作名称提出时间研究机构是否开源链接详情
1CLIPort2021.09 (CoRL 2021)University of Washington, NVIDIAarXiv:2109.12098
详情
论文 CLIPort: What and Where Pathways for Robotic Manipulation
规模 —   输入 RGB图像, 自然语言指令   输出 机器人操作动作(pick-and-place)
核心贡献 结合CLIP语义理解与Transporter Networks的空间精度,实现语言条件下的操作
2BC-Z2022.02 (CoRL 2021)Google ResearcharXiv:2202.02005
详情
论文 BC-Z: Zero-Shot Task Generalization with Robotic Imitation Learning
规模 —   输入 RGB图像, 自然语言指令/视频演示   输出 机器人操作动作
核心贡献 通过大规模数据收集(25,000+机器人demo)实现零样本任务泛化
3GATO2022.05 (TMLR 2022)DeepMindarXiv:2205.06175
详情
论文 A Generalist Agent
规模 1.2B   输入 多模态(图像, 文本, 本体感知, 关节力矩等)   输出 多模态(文本, 动作, 关节力矩等)
核心贡献 单一Transformer网络完成604种不同任务(Atari、图像描述、对话、机器人控制等)
4VIMA2022.10 (ICML 2023)Stanford, NVIDIA, Caltech, 清华, UT AustinarXiv:2210.03094
详情
论文 VIMA: General Robot Manipulation with Multimodal Prompts
规模 —   输入 多模态提示(交错的文本和视觉token)   输出 机器人动作(自回归)
核心贡献 通过多模态提示统一多种机器人操作任务,零样本泛化提升2.9倍
5RT-12022.12Google Research, Everyday RobotsarXiv:2212.06817
详情
论文 RT-1: Robotics Transformer for Real-World Control at Scale
规模 —   输入 相机图像, 自然语言任务指令   输出 电机控制命令
核心贡献 基于Transformer的大规模机器人控制,130,000个episode、13个机器人、17个月数据训练
6UniPi2023.01 (NeurIPS 2023 Spotlight)Google Brain部分arXiv:2302.00111
详情
论文 Learning Universal Policies via Text-Guided Video Generation
规模 —   输入 文本描述, 当前图像帧   输出 视频序列(通过逆动力学提取动作)
核心贡献 将序列决策问题转化为文本条件视频生成问题,视频作为跨环境通用接口
7Diffusion Policy2023.03 (RSS 2023)Columbia University, TRI, MITarXiv:2303.04137
详情
论文 Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
规模 —   输入 RGB图像, 机器人观测   输出 机器人动作(去噪扩散过程)
核心贡献 将视觉运动策略表示为条件去噪扩散过程,平均性能提升46.9%
8ACT2023.04 (RSS 2023)Stanford, Meta, UC BerkeleyarXiv:2304.13705
详情
论文 Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware
规模 ~80M   输入 RGB图像(多相机), 关节位置, 本体感知   输出 动作块(未来k步动作序列)
核心贡献 预测固定长度的动作序列而非单步动作,提高时序连贯性和样本效率
9RT-22023.07Google DeepMindarXiv:2307.15818
详情
论文 RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
规模 —   输入 相机图像, 自然语言指令   输出 机器人动作(文本token形式)
核心贡献 在VLM(PaLI-X/PaLM-E)上联合微调机器人数据和网络数据,将动作表示为语言token
10RoboFlamingo2023.08 (ICLR 2024)ByteDance, 清华, 上海交大, NUS 等arXiv:2311.01378
详情
论文 Vision-Language Foundation Models as Effective Robot Imitators
规模 3B/4B/9B(基于OpenFlamingo)   输入 图像, 自然语言指令   输出 机器人操作动作
核心贡献 将预训练VLM(OpenFlamingo)适配用于机器人模仿学习,在CALVIN上达SOTA
11RT-X2023.10 (ICRA 2024)Open X-Embodiment Collaboration (21家机构)arXiv:2310.08864
详情
论文 Open X-Embodiment: Robotic Learning Datasets and RT-X Models
规模 —   输入 多机器人观测(图像、本体感知等)   输出 跨具身机器人动作
核心贡献 21家机构、22种机器人、527种技能的标准化数据集,证明跨机器人正迁移
12LEO2023.11 (ICML 2024)BIGAI, 北京大学, CMU, 清华arXiv:2311.12871
详情
论文 An Embodied Generalist Agent in 3D World
规模 —   输入 2D图像(自我中心), 3D点云, 语言指令   输出 机器人动作, 3D描述, 导航命令
核心贡献 3D世界中的多模态通才Agent,融合2D/3D视觉编码器和LLM
13GR-12023.12 (ICLR 2024)ByteDancearXiv:2312.13139
详情
论文 Unleashing Large-Scale Video Generative Pre-training for Visual Robot Manipulation
规模 —   输入 语言指令, 观测图像序列, 机器人状态   输出 机器人动作, 未来图像
核心贡献 GPT风格Transformer进行大规模视频生成预训练+机器人数据微调,CALVIN 94.9%成功率

二、探索阶段(2024年)

序号工作名称提出时间研究机构是否开源链接详情
143D-VLA2024.03UMass AmherstarXiv:2403.09631
详情
论文 3D-VLA: A 3D Vision-Language-Action Generative World Model
规模 —   输入 3D点云, 图像, 语言指令   输出 机器人动作, 目标图像, 目标点云
核心贡献 引入3D世界模型的VLA,在规划动作前推理未来场景
15RT-H2024.03 (RSS 2024)Google DeepMind, StanfordarXiv:2403.01823
详情
论文 RT-H: Action Hierarchies Using Language
规模 —   输入 视觉观测, 语言指令   输出 语言运动描述(中间层), 机器人动作
核心贡献 用语言运动作为高级任务和低级动作间的中间层,支持人类语言纠正
16Octo2024.05多机构 (Octo Team)arXiv:2405.12213
详情
论文 Octo: An Open-Source Generalist Robot Policy
规模 27M/93M   输入 图像(腕部/第三方相机), 语言/目标图像, 本体感知   输出 机器人动作
核心贡献 开源Transformer扩散策略,800k轨迹训练,可在消费级GPU上高效微调
17LLARVA2024.06 (CoRL 2024)UC BerkeleyarXiv:2406.11815
详情
论文 LLARVA: Vision-Action Instruction Tuning Enhances Robot Learning
规模 —   输入 图像, 语言指令, 本体感知   输出 机器人动作, 视觉轨迹
核心贡献 引入视觉-动作指令微调和"视觉轨迹"中间表征
18OpenVLA2024.06Stanford, UC Berkeley, MIT等arXiv:2406.09246
详情
论文 OpenVLA: An Open-Source Vision-Language-Action Model
规模 7B   输入 图像(SigLIP+DINOv2), 语言指令   输出 token化机器人动作
核心贡献 开源7B VLA,以7倍少的参数超越RT-2-X(55B) 16.5%成功率
19RoboMamba2024.06 (NeurIPS 2024)北京大学, BAAI, AI2RoboticsarXiv:2406.04339
详情
论文 RoboMamba: Efficient Vision-Language-Action Model for Robotic Reasoning and Manipulation
规模 —   输入 图像, 语言指令   输出 机器人动作, SE(3)位姿
核心贡献 用Mamba(SSM)架构实现3倍推理加速,仅需0.1%参数微调
20ECoT2024.07 (CoRL 2024)Stanford, UC BerkeleyarXiv:2407.08693
详情
论文 Robotic Control via Embodied Chain-of-Thought Reasoning
规模 —   输入 图像, 语言指令, 机器人状态   输出 多步推理, 机器人动作
核心贡献 训练VLA在执行动作前进行具身推理,OpenVLA成功率提升28%
21Gen2Act2024.09 (CoRL 2025)Google DeepMind, CMU, StanfordarXiv:2409.16283
详情
论文 Gen2Act: Human Video Generation in Novel Scenarios enables Generalizable Robot Manipulation
规模 —   输入 语言指令, 图像   输出 生成的人类演示视频, 机器人动作
核心贡献 两阶段:先生成人类演示视频,再基于视频执行策略,实现零样本泛化
22TinyVLA2024.09 (RA-L 2025)美的集团, 华东师范大学, 上海大学, 北京人形机器人创新中心arXiv:2409.12514
详情
论文 TinyVLA: Towards Fast, Data-Efficient Vision-Language-Action Models for Robotic Manipulation
规模 —   输入 图像, 语言指令   输出 机器人动作(扩散策略解码器)
核心贡献 紧凑型VLA,推理速度比OpenVLA快20倍,无需大规模预训练
23HPT2024.09 (NeurIPS 2024 Spotlight)MIT CSAIL, Meta AIarXiv:2409.20537
详情
论文 Scaling Proprioceptive-Visual Learning with Heterogeneous Pre-trained Transformers
规模 1B   输入 本体感知, 视觉(不同具身)   输出 机器人控制动作
核心贡献 预训练共享Transformer主干学习任务和具身无关表征,52个数据集200k+轨迹
24HiRT2024.09清华大学, UC BerkeleyarXiv:2410.05273
详情
论文 HiRT: Enhancing Robotic Control with Hierarchical Robot Transformers
规模 InstructBLIP 7B + 轻量策略   输入 RGB图像, 语言指令   输出 机器人动作
核心贡献 层级架构:低频VLM语义理解+高频轻量策略实时控制,推理延迟降低58%
25RDT2024.10清华大学arXiv:2410.07864
详情
论文 RDT-1B: a Diffusion Foundation Model for Bimanual Manipulation
规模 1.2B   输入 RGB图像(3视角), 语言指令, 控制频率, 本体感知   输出 机器人动作(预测64步)
核心贡献 最大的扩散基础模型用于双臂操作,物理可解释统一动作空间
26LAPA2024.10KAIST, UW, Microsoft, NVIDIA, AI2arXiv:2410.11758
详情
论文 Latent Action Pretraining from Videos
规模 7B   输入 RGB图像, 语言指令   输出 潜在动作→机器人动作
核心贡献 首个无需动作标签的VLA预训练方法,从视频学习潜在动作,效率提升30倍
27π₀2024.10Physical IntelligencearXiv:2410.24164
详情
论文 π₀: A Vision-Language-Action Flow Model for General Robot Control
规模 —   输入 RGB图像, 语言指令   输出 连续机器人动作(flow matching)
核心贡献 基于flow matching的VLA,继承VLM语义知识,跨平台通用机器人控制
28RoboDual2024.10上海交大, 上海AI Lab, 港大, AgiBotarXiv:2410.08001
详情
论文 Towards Synergistic, Generalized, and Efficient Dual-System for Robotic Manipulation
规模 专家20M + VLA   输入 RGB图像, 语言提示   输出 机器人动作(多步)
核心贡献 通才VLA+专家扩散策略双系统,真实任务提升26.7%,频率提升3.8倍
29CogACT2024.11Microsoft Research Asia, 清华, USTCarXiv:2411.19650
详情
论文 CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation
规模 ~7B   输入 RGB图像, 语言指令   输出 连续动作序列(扩散Transformer)
核心贡献 组件化VLA架构,解耦认知与动作预测,仿真成功率+35%,实机+55%
30GR-22024.10ByteDance Research部分arXiv:2410.06158
详情
论文 GR-2: A Generative Video-Language-Action Model with Web-Scale Knowledge for Robot Manipulation
规模 —   输入 视频帧, 语言指令   输出 机器人动作, 视频生成
核心贡献 38M视频clips预训练捕获世界动态,100+任务97.7%平均成功率
31VPP2024.12清华, UC Berkeley, 上海AI Lab, Robot EraarXiv:2412.14803
详情
论文 Video Prediction Policy: A Generalist Robot Policy with Predictive Visual Representations
规模 —   输入 RGB图像, 语言指令   输出 机器人动作
核心贡献 利用视频扩散模型的预测视觉表征学习控制,CALVIN提升18.6%
32RoboVLMs2024.12清华, ByteDance, CASIA, 上海交大, NUSarXiv:2412.14058
详情
论文 Towards Generalist Robot Policies: What Matters in Building Vision-Language-Action Models
规模 —   输入 RGB图像, 语言指令   输出 机器人动作
核心贡献 系统性研究VLA设计选择,600+实验、8+VLM骨干、4种策略架构
33TraceVLA2024.12UMD, Microsoft ResearcharXiv:2412.10345
详情
论文 TraceVLA: Visual Trace Prompting Enhances Spatial-Temporal Awareness for Generalist Robotic Policies
规模 7B / 4B   输入 RGB图像(叠加视觉轨迹), 语言指令   输出 机器人动作
核心贡献 视觉轨迹提示增强时空感知,实机任务性能提升3.5倍
34FLIP2024.12NUSarXiv:2412.08261
详情
论文 FLIP: Flow-Centric Generative Planning as General-Purpose Manipulation World Model
规模 —   输入 RGB图像, 语言指令   输出 图像流, 视频计划, 机器人动作
核心贡献 基于模型规划框架,图像流作为通用动作表示,合成长时域计划
35DiVLA2024.12Midea Group等arXiv:2412.03293
详情
论文 Diffusion-VLA: Generalizable and Interpretable Robot Foundation Model via Self-Generated Reasoning
规模 2B–72B   输入 RGB图像, 语言指令   输出 机器人动作(扩散模型)+ 自生成推理
核心贡献 统一自回归模型(推理)与扩散模型(动作),推理注入模块

三、快速发展阶段(2025年)

序号工作名称提出时间研究机构是否开源链接详情
36π₀-FAST2025.01Physical Intelligence, UC Berkeley, StanfordarXiv:2501.09747
详情
论文 FAST: Efficient Action Tokenization for Vision-Language-Action Models
规模 基于π₀ (3B骨干)   输入 图像观测, 语言指令   输出 机器人动作(FAST tokenization)
核心贡献 频域动作序列token化(DCT),训练速度提升5倍,保持精度
37SpatialVLA2025.01上海AI Lab, ShanghaiTech, TeleAIarXiv:2501.15830
详情
论文 SpatialVLA: Exploring Spatial Representations for Visual-Language-Action Models
规模 3.5B   输入 图像观测, 语言指令   输出 机器人动作(7D)
核心贡献 引入Ego3D位置编码注入3D空间信息,自适应动作网格离散化
38UP-VLA2025.01 (ICML 2025)清华大学, 上海齐智研究所arXiv:2501.18867
详情
论文 UP-VLA: A Unified Understanding and Prediction Model for Embodied Agent
规模 —   输入 图像观测, 语言指令   输出 机器人动作, 未来图像预测
核心贡献 统一多模态理解与未来预测的训练范式
39DexVLA2025.02Midea Group, 华东师范大学arXiv:2502.05855
详情
论文 DexVLA: Vision-Language Model with Plug-In Diffusion Expert for General Robot Control
规模 扩散专家1B   输入 视觉, 语言, 机器人状态   输出 机器人动作(扩散动作专家)
核心贡献 插件式扩散动作专家(1B)+具身课程学习,支持单臂/双臂/灵巧手
40Magma2025.02 (CVPR 2025)Microsoft Research, UMD, UW-Madison, KAIST, UWarXiv:2502.13130
详情
论文 Magma: A Foundation Model for Multimodal AI Agents
规模 8B   输入 视觉, 语言, 时空信息   输出 数字/物理环境中的动作
核心贡献 VLM扩展空间时序智能(SoM+ToM),统一数字和物理世界Agent
41ARM4R2025.02 (ICML 2025)UC BerkeleyarXiv:2502.13142
详情
论文 Pre-training Auto-regressive Robotic Models with 4D Representations
规模 —   输入 自我中心人类视频, 机器人演示   输出 机器人本体状态和动作
核心贡献 4D表征(3D点跟踪随时间)从人类视频预训练机器人模型
42ChatVLA2025.02 (EMNLP 2025)Midea Group, 华东师范大学, 上海大学, 清华等arXiv:2502.14420
详情
论文 ChatVLA: Unified Multimodal Understanding and Robot Control with Vision-Language-Action Model
规模 —   输入 视觉, 语言, 多模态数据   输出 机器人动作 + 多模态理解输出
核心贡献 分阶段对齐训练+MoE解决VLA训练中的遗忘和任务干扰
43Hi Robot2025.02Physical Intelligence, Stanford, UC BerkeleyarXiv:2502.19417
详情
论文 Hi Robot: Open-Ended Instruction Following with Hierarchical Vision-Language-Action Models
规模 —   输入 视觉, 语言, 实时反馈   输出 机器人动作(层级双系统)
核心贡献 层级系统:高层VLM推理分解+低层π₀执行,支持实时反馈纠正,复杂任务85%成功率
44OpenVLA-OFT2025.02 (RSS 2025)Stanford UniversityarXiv:2502.19645 官网 Code
详情
论文 Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success
规模 基于 OpenVLA (7B),OFT 微调(LoRA 等参数高效)
输入 图像(第三方/腕部多视角), 语言指令, 本体感知   输出 连续机器人动作(并行解码、动作块)
核心贡献 优化微调方案(OFT):并行解码+动作分块+连续动作表示+L1 回归,可选 FiLM 增强语言理解;LIBERO 四套任务平均成功率 97.1%(SOTA),动作生成吞吐约 26×、延迟约 3× 降低;ALOHA 双臂真机 25Hz 控制,优于微调 VLA(π₀、RDT-1B)与从零训练策略(ACT、Diffusion Policy);RSS 2025 接收
45DexGraspVLA2025.02 (AAAI 2026 Oral)北京大学, HKUST(GZ), UPennarXiv:2502.20900
详情
论文 DexGraspVLA: A Vision-Language-Action Framework Towards General Dexterous Grasping
规模 —   输入 视觉, 语言, 深度信息   输出 灵巧抓取动作
核心贡献 层级VLM规划器+扩散控制器,零样本灵巧抓取成功率90%+
46GO-12025.03AgiBot, OpenDriveLab, 上海创新研究院arXiv:2503.06669
详情
论文 GO-1 (AgiBot World Colosseo)
规模 —   输入 视觉, 语言, 机器人状态   输出 潜在动作token (ViLLA框架)
核心贡献 100+台G1机器人1M+轨迹训练,比RDT提升32%,比OXE策略提升30%
47HybridVLA2025.03北京大学, BAAI, CUHKarXiv:2503.10631
详情
论文 HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model
规模 7B   输入 视觉, 语言, 机器人状态   输出 机器人动作(协同扩散+自回归)
核心贡献 在单一LLM中统一自回归和扩散动作预测,仿真+14%,实机+19%
48GR00T N12025.03NVIDIAarXiv:2503.14734
详情
论文 GR00T N1: An Open Foundation Model for Generalist Humanoid Robots
规模 2B / 3B   输入 视觉, 语言, 本体感知   输出 机器人动作(扩散Transformer)
核心贡献 开源人形机器人VLA,双系统架构(VLM+扩散Transformer),混合真实/合成数据训练
49Gemini Robotics2025.03Google DeepMindarXiv:2503.20020
详情
论文 Gemini Robotics: Bringing AI into the Physical World
规模 — (基于Gemini 2.0)   输入 视觉, 语言指令   输出 电机控制命令
核心贡献 基于Gemini 2.0的VLA,在通用性、交互性和灵巧性方面取得重大进展
50CoT-VLA2025.03 (CVPR 2025)Stanford, MIT, NVIDIA等arXiv:2503.22020
详情
论文 CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models
规模 7B   输入 视觉, 语言, 机器人观测   输出 未来图像帧(视觉目标) + 动作序列
核心贡献 预测未来图像帧作为视觉思维链,实机任务提升17%
51π₀.₅2025.04 (CoRL 2025)Physical IntelligencearXiv:2504.16054
详情
论文 π₀.₅: a Vision-Language-Action Model with Open-World Generalization
规模 —   输入 图像, 语言, 物体检测, 语义子任务   输出 低级机器人动作, 中间子任务预测
核心贡献 异构任务协同训练实现开放世界泛化,可执行10-15分钟的长时域任务
52NORA2025.04DeCLaRe Lab 等arXiv:2504.19854
详情
论文 NORA: A Small Open-Sourced Generalist Vision Language Action Model for Embodied Tasks
规模 3B   输入 图像观测, 语言指令   输出 机器人动作
核心贡献 紧凑3B VLA,基于Qwen-2.5-VL-3B+FAST+tokenizer,性能媲美大模型
53GraspVLA2025.05 (CoRL 2025)北京大学, 港大, BAAI, Galbot部分arXiv:2505.03233
详情
论文 GraspVLA: a Grasping Foundation Model Pre-trained on Billion-scale Synthetic Action Data
规模 —   输入 视觉, 语言, 合成抓取数据   输出 机器人抓取动作
核心贡献 首个在十亿级合成数据(SynGrasp-1B)上预训练的抓取VLA
54Helix2025.05Figure AI部分arXiv:2505.03912 (OpenHelix)
详情
论文 Helix: A Vision-Language-Action Model for Generalist Humanoid Control
规模 —   输入 视觉, 语言, 本体感知   输出 全身人形机器人高频连续控制
核心贡献 首个输出全人形上身高频连续控制的VLA,支持双机器人协作
553D-CAVLA2025.05 (CVPR 2025 Workshop)NYUarXiv:2505.05800
详情
论文 3D-CAVLA: Leveraging Depth and 3D Context to Generalize VLA Models for Unseen Tasks
规模 基于LLaMA2-7B   输入 视觉, 语言, 深度, 3D上下文   输出 机器人操作动作
核心贡献 链式思维推理+深度感知+任务导向ROI检测,LIBERO 98.1%,未见任务+8.8%
56UniVLA2025.05OpenDriveLab (BAAI Vision)arXiv:2505.06111
详情
论文 UniVLA: Learning to Act Anywhere with Task-centric Latent Actions
规模 —   输入 视觉, 语言, 异构数据   输出 潜在动作token
核心贡献 任务中心潜在动作学习,仅需960 A100-hours (vs 21,500),跨具身泛化
57OneTwoVLA2025.05清华大学, 上海齐智研究所, 上海AI Lab, 复旦arXiv:2505.11917
详情
论文 OneTwoVLA: A Unified Vision-Language-Action Model with Adaptive Reasoning
规模 —   输入 图像观测, 语言指令   输出 机器人动作 + 推理token
核心贡献 自适应切换System 1/2,在关键时刻触发显式推理
58Hume2025.05上海交大, 上海AI Lab, 浙大, AgiBot, 复旦arXiv:2505.21432
详情
论文 Hume: Introducing System-2 Thinking in Visual-Language-Action Model
规模 —   输入 视觉, 语言, 机器人状态   输出 机器人动作(双系统架构)
核心贡献 引入System-2思考:价值引导低频深度思考+System-1实时级联动作去噪
59ChatVLA-22025.05 (NeurIPS 2025)Midea Group, 华东师范大学arXiv:2505.21906
详情
论文 ChatVLA-2: Vision-Language-Action Model with Open-World Embodied Reasoning from Pretrained Knowledge
规模 —   输入 图像观测, 语言指令   输出 机器人动作 + 推理输出
核心贡献 MoE架构+两阶段训练保留VLM能力,支持开放世界具身推理
60Robot-R12025.05KAIST, Yonsei, UC BerkeleyarXiv:2506.00070
详情
论文 Robot-R1: Reinforcement Learning for Enhanced Embodied Reasoning in Robotics
规模 7B   输入 场景图像, 环境元数据, 语言指令   输出 关键点状态预测, 机器人动作
核心贡献 RL增强具身推理,7B模型超越GPT-4o的空间/运动推理能力
61SmolVLA2025.06Hugging Face (LeRobot)arXiv:2506.01844
详情
论文 SmolVLA: A Vision-Language-Action Model for Affordable and Efficient Robotics
规模 450M   输入 多相机视角, 机器人感觉运动状态, 语言指令   输出 连续机器人动作
核心贡献 紧凑450M VLA,性能媲美10倍大模型,单GPU训练和消费级硬件部署
62FiS-VLA (Fast-in-Slow)2025.06 (NeurIPS 2025)北京大学, 港中文, 智平方, 智源 BAAIarXiv:2506.01953
详情
论文 Fast-in-Slow: A Dual-System Foundation Model Unifying Fast Manipulation within Slow Reasoning
规模 —   输入 系统2: 2D 图像+语言;系统1: 3D 点云+图像+机器人状态   输出 机器人动作
核心贡献 异构输入+异步频率的双系统 VLA:将 VLM 最后几层重构为快执行模块(系统1)嵌入慢推理(系统2)内;控制频率 117.7 Hz(动作块8),仿真+8%、真机+11%,AgileX/AlphaBot 真机 68%/74% 成功率
63BitVLA2025.06中科院等arXiv:2506.07530
详情
论文 BitVLA: 1-bit Vision-Language-Action Models for Robotics Manipulation
规模 —   输入 图像, 语言指令   输出 机器人动作
核心贡献 首次将1-bit量化应用于VLA,三值参数{-1,0,1},仅29.8%内存
64Fast ECoT2025.06UCL, U. of Freiburg, Cisco ResearcharXiv:2506.07639
详情
论文 Fast ECoT: Efficient Embodied Chain-of-Thought via Thoughts Reuse
规模 —   输入 视觉, 语言, 机器人状态   输出 机器人动作(加速ECoT推理)
核心贡献 缓存复用高层推理+并行模块推理+异步调度,延迟降低7.5倍,无需重训
65CoA2025.06 (NeurIPS 2025)ByteDance Seed, NUS, 阿德莱德大学, CAS, CSIROarXiv:2506.09990
详情
论文 Chain-of-Action: Trajectory Autoregressive Modeling for Robotic Manipulation
规模 —   输入 图像, 语言指令   输出 机器人动作轨迹
核心贡献 逆向推理生成动作轨迹(从目标到当前状态),动作级思维链
66SP-VLA2025.06清华大学, 港中文, 上海AI Lab, UIUCarXiv:2506.12723
详情
论文 SP-VLA: A Joint Model Scheduling and Token Pruning Approach for VLA Model Acceleration
规模 —   输入 图像, 语言指令   输出 机器人动作
核心贡献 动作感知模型调度+时空语义双感知token剪枝,加速1.5-2.4倍
67WorldVLA2025.06阿里巴巴达摩院arXiv:2506.21539
详情
论文 WorldVLA: Towards Autoregressive Action World Model
规模 7B   输入 视觉, 语言, 机器人状态   输出 机器人动作 + 未来图像预测
核心贡献 统一VLA与世界模型,注意力掩码策略缓解自回归误差传播
68UniAct2025.06 (CVPR 2025)arXiv:2512.24321
详情
论文 Universal Actions for Enhanced Embodied Foundation Models
规模 0.5B   输入 图像观测, 语言指令   输出 通用动作→机器人特定命令
核心贡献 统一异构动作表示的通用动作空间,学习跨机器人通用原子行为
69TriVLA2025.07复旦大学arXiv:2507.01424
详情
论文 TriVLA: A Triple-System-Based Unified VLA with Episodic World Modeling for General Robot Control
规模 —   输入 图像, 语言指令   输出 机器人动作
核心贡献 三系统架构(策略学习+视觉语言+动态感知)+情景世界模型
70DreamVLA2025.07 (NeurIPS 2025)上海交大, 清华, Galbot, 北大, UIUC, 中科大等arXiv:2507.04447
详情
论文 DreamVLA: A VLA Model Dreamed with Comprehensive World Knowledge
规模 —   输入 图像, 语言指令   输出 机器人动作 + 世界知识预测(动态区域、深度、语义)
核心贡献 感知-预测-动作环路,预测中间世界知识表征而非图像
71GR-32025.07ByteDance Seed (硬件: Fourier Intelligence)arXiv:2507.15493
详情
论文 GR-3 Technical Report
规模 —   输入 语言指令, 环境观测, 机器人状态   输出 双臂移动机器人动作块
核心贡献 VLM+动作预测的大规模VLA,多面训练(网络数据+人类VR数据+机器人数据)
72GR-RL2025.12ByteDance SeedarXiv:2512.01801
详情
论文 GR-RL: Going Dexterous and Precise for Long-Horizon Robotic Manipulation
规模 约 5B(MoT 架构,Qwen2.5-VL 骨干 + 51.5M 噪声预测器)   输入 图像, 语言指令, 机器人状态   输出 机器人动作
核心贡献 将通用 VLA(GR-3) 转为长时域灵巧操作策略:离线数据过滤(TD3+BC 任务进度)+形态对称数据增强+在线强化学习(隐空间噪声预测);真机穿鞋带任务成功率从 GR-3 基线 45.7% 提升至 83.3%,具备纠错与重试能力
73StereoVLA2025.12Galbot, 北京大学, 港大, 中科院自动化所, BAAI 等arXiv:2512.21970 Code
详情
论文 StereoVLA: Enhancing Vision-Language-Action Models with Stereo Vision
规模 —   输入 立体双目图像, 自然语言指令   输出 机器人操作动作
核心贡献 将立体视觉引入 VLA:提出几何-语义特征提取模块(几何特征来自双目视差、语义特征来自单目),融合几何与语义;辅助交互区域深度估计任务增强空间感知并加速收敛;在立体设定下多类操作任务显著优于基线,对相机位姿变化具有强鲁棒性

四、2026年及以后(按时间排序,日期到日)

序号工作名称提出时间研究机构是否开源链接详情
74ActiveVLA2026-01-13复旦大学, 上海创新研究院, 南洋理工arXiv:2601.08325
详情
论文 ActiveVLA: Injecting Active Perception into Vision-Language-Action Models for Precise 3D Robotic Manipulation
规模 —   输入 多视角 2D/3D, 语言指令   输出 机器人动作
核心贡献 主动感知:粗到细关键区域定位 + 主动视角选择与 3D zoom-in;RLBench/COLOSSEUM/GemBench SOTA,较基线提升最高 41%,可迁移真机
75LingBot-VLA2026-01-26蚂蚁灵波 (Robbyant / Ant Group)arXiv:2601.18692
详情
论文 A Pragmatic VLA Foundation Model
规模 基于 Qwen2.5-VL-3B + Flow Matching 动作专家   输入 图像(可配深度), 语言指令, 本体感知   输出 连续机器人动作
核心贡献 约 2 万小时真机数据、9 种双臂构型预训练;GM-100 真机基准跨本体泛化 17.3%(含深度),RoboTwin 2.0 较 π₀.₅ 提升 9.92%;LingBot-Depth 深度蒸馏增强空间感知;训练效率较 StarVLA/OpenPI 约 1.5–2.8×,80 条演示即可任务迁移;全面开源
76GeneralVLA2026-02-04AIGeeksGroup(GitHub 组织,作者含 Zeyu Zhang 等)arXiv:2602.04315
详情
论文 GeneralVLA: Generalizable Vision-Language-Action Models with Knowledge-Guided Trajectory Planning
规模 —   输入 视觉, 语言指令   输出 机器人轨迹/动作
核心贡献 零样本泛化:分层架构(affordance 分割 + 3D 轨迹规划 + 3D 感知控制),无需真实机器人数据;14 个任务轨迹生成优于 VoxPoser
77ST4VLA2026-02-10 (ICLR 2026)上海 AI Lab, 复旦大学, 港科大, 南科大 等arXiv:2602.10109
详情
论文 ST4VLA: Spatially Guided Training for Vision-Language-Action Models
规模 —   输入 图像, 语言指令   输出 机器人动作
核心贡献 空间引导训练:空间 grounding 预训练(点/框/轨迹预测)+ 空间引导动作后训练;Google Robot SimplerEnv 66.1→84.6,WidowX 54.7→73.2,未见物体泛化与鲁棒性提升
78Xiaomi-Robotics-02026-02-13小米 (Xiaomi)arXiv:2602.12684 Code
详情
论文 Xiaomi-Robotics-0: An Open-Sourced Vision-Language-Action Model with Real-Time Execution
规模 4.7B(Qwen3-VL-4B 骨干 + 700M DiT 动作)   输入 图像, 语言指令   输出 机器人动作序列
核心贡献 异步执行实现消费级 GPU 实时推理;LIBERO 98.7%、CALVIN 4.75–4.80、SimplerEnv 85.5%/74.7%/79.2%;双臂 Lego 拆解/毛巾折叠真机;Apache 2.0 开源
79RynnBrain2026-02-13阿里达摩院 (Alibaba DAMO Academy)arXiv:2602.14979 Code
详情
论文 RynnBrain: Open Embodied Foundation Models
规模 2B / 8B / 30B-A3B (MoE)   输入 视觉, 语言, 时空上下文   输出 具身理解/规划/动作(变体 RynnBrain-VLA/Plan/Nav/CoP)
核心贡献 开放具身基础模型:自我中心理解、时空定位、物理推理、物理感知规划;20 个具身基准 + 8 个通用视觉基准领先;开源 Hugging Face/ModelScope
80SimVLA2026-02-20Frontier Robotics(作者含 Zhenguo Li 等)arXiv:2602.18224
详情
论文 SimVLA: A Simple VLA Baseline for Robotic Manipulation
规模 0.5B   输入 图像, 语言指令   输出 机器人动作
核心贡献 极简基线:严格解耦感知与控制,无机器人预训练;仿真 SOTA,真机性能媲美 π₀.₅ 等大模型
81SC-VLA (Self-Correcting VLA)2026-02-25电子科技大学 等(通讯作者 Heng Tao Shen)arXiv:2602.21633
详情
论文 Self-Correcting VLA: Online Action Refinement via Sparse World Imagination
规模 —   输入 图像, 语言指令   输出 机器人动作(在线细化)
核心贡献 稀疏世界想象 + 辅助预测头(任务进度、未来轨迹);步数减少 16%、成功率 +9%,真机 +14%
82DySL-VLA2026-02-26北京大学 (PKU-SEC-Lab) 等arXiv:2602.22896
详情
论文 DySL-VLA: Efficient Vision-Language-Action Model Inference via Dynamic-Static Layer-Skipping for Robot Manipulation
规模 —   输入 图像, 语言指令   输出 机器人动作
核心贡献 按动作重要性动态-静态层跳跃推理;较 RoboFlamingo 3.75× 加速、参数减 85.7×、精度 +2.1%
83DAM-VLA2026-03-01 (ICRA 2026)三星电子, 汉阳大学 (Samsung AI / Hanyang University HPI Lab) 等arXiv:2603.00926
详情
论文 DAM-VLA: A Dynamic Action Model-Based Vision-Language-Action Framework for Robot Manipulation
规模 —   输入 视觉, 语言指令   输出 机器人动作(手臂/夹爪路由)
核心贡献 VLM 推理 + 扩散动作模型;动作路由(手臂运动 vs 夹爪操作)+ 双尺度加权;SIMPLER、FurnitureBench 及真机长时域/接触密集任务优于 SOTA

五、统计摘要

维度 统计
总计模型数 83 个
开源比例 ~60%+ 完全开源
模型参数范围 27M (Octo-Small) → 72B (DiVLA)
最常见参数量 7B(OpenVLA, LAPA, TraceVLA, CogACT, CoT-VLA, HybridVLA, WorldVLA, Robot-R1等)
主要输入模态 视觉(RGB/深度/点云) + 自然语言指令 + 本体感知
主要输出模态 连续/离散机器人动作,部分同时输出视频/图像预测、推理链
重要发展趋势 扩散模型动作生成、层级/双系统架构、思维链推理、世界模型集成、轻量化/量化、跨具身泛化;2026 年:具身基础模型(RynnBrain)、零样本/知识引导(GeneralVLA)、动态动作路由(DAM-VLA)、主动感知(ActiveVLA)、实时执行(Xiaomi-Robotics-0)等

六、关键趋势总结

  1. 动作生成范式:从早期的直接回归 → 扩散策略(Diffusion Policy) → Flow Matching(π₀) → 自回归token化(FAST) → 混合方案(HybridVLA)
  2. 架构演进:单一模型 → 双系统(System 1/2) → 三系统(TriVLA) → MoE(ChatVLA)
  3. 推理能力:无推理 → ECoT显式推理 → CoT-VLA视觉思维链 → DreamVLA世界知识预测
  4. 数据效率:从需要大量机器人数据 → 利用互联网视频(LAPA/GR-2) → 合成数据(GraspVLA) → 人类视频(ARM4R)
  5. 效率优化:模型压缩(BitVLA 1-bit)、小型化(SmolVLA 450M)、推理加速(Fast ECoT 7.5×)、token剪枝(SP-VLA)、VLA 微调加速(OpenVLA-OFT 26× 吞吐)、层跳跃推理(DySL-VLA 3.75× 加速)
  6. 产业化:Google(Gemini Robotics)、NVIDIA(GR00T N1)、Physical Intelligence(π₀系列)、ByteDance(GR系列/GR-RL)、Midea(ChatVLA/DexVLA/DiVLA)、蚂蚁灵波(LingBot-VLA)、阿里(RynnBrain)、小米(Xiaomi-Robotics-0)、Figure AI(Helix)、AgiBot(GO-1)等企业深度参与
  7. 2026 年趋势:空间引导训练(ST4VLA)、主动感知(ActiveVLA)、具身基础模型(RynnBrain)、零样本/知识引导(GeneralVLA)、动态动作路由(DAM-VLA)、自纠正与世界想象(SC-VLA)、极简基线(SimVLA)、消费级实时执行(Xiaomi-Robotics-0)等

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors