VLA（Vision-Language-Action）模型发展全景汇总表

一、萌芽阶段（2022–2023）

序号	工作名称	提出时间	研究机构	是否开源	链接	详情
1	CLIPort	2021.09 (CoRL 2021)	University of Washington, NVIDIA	是	arXiv:2109.12098	详情论文 CLIPort: What and Where Pathways for Robotic Manipulation 规模 — 输入 RGB图像, 自然语言指令输出机器人操作动作（pick-and-place）核心贡献结合CLIP语义理解与Transporter Networks的空间精度，实现语言条件下的操作
2	BC-Z	2022.02 (CoRL 2021)	Google Research	是	arXiv:2202.02005	详情论文 BC-Z: Zero-Shot Task Generalization with Robotic Imitation Learning 规模 — 输入 RGB图像, 自然语言指令/视频演示输出机器人操作动作核心贡献通过大规模数据收集(25,000+机器人demo)实现零样本任务泛化
3	GATO	2022.05 (TMLR 2022)	DeepMind	否	arXiv:2205.06175	详情论文 A Generalist Agent 规模 1.2B 输入多模态（图像, 文本, 本体感知, 关节力矩等）输出多模态（文本, 动作, 关节力矩等）核心贡献单一Transformer网络完成604种不同任务（Atari、图像描述、对话、机器人控制等）
4	VIMA	2022.10 (ICML 2023)	Stanford, NVIDIA, Caltech, 清华, UT Austin	是	arXiv:2210.03094	详情论文 VIMA: General Robot Manipulation with Multimodal Prompts 规模 — 输入多模态提示（交错的文本和视觉token）输出机器人动作（自回归）核心贡献通过多模态提示统一多种机器人操作任务，零样本泛化提升2.9倍
5	RT-1	2022.12	Google Research, Everyday Robots	是	arXiv:2212.06817	详情论文 RT-1: Robotics Transformer for Real-World Control at Scale 规模 — 输入相机图像, 自然语言任务指令输出电机控制命令核心贡献基于Transformer的大规模机器人控制，130,000个episode、13个机器人、17个月数据训练
6	UniPi	2023.01 (NeurIPS 2023 Spotlight)	Google Brain	部分	arXiv:2302.00111	详情论文 Learning Universal Policies via Text-Guided Video Generation 规模 — 输入文本描述, 当前图像帧输出视频序列（通过逆动力学提取动作）核心贡献将序列决策问题转化为文本条件视频生成问题，视频作为跨环境通用接口
7	Diffusion Policy	2023.03 (RSS 2023)	Columbia University, TRI, MIT	是	arXiv:2303.04137	详情论文 Diffusion Policy: Visuomotor Policy Learning via Action Diffusion 规模 — 输入 RGB图像, 机器人观测输出机器人动作（去噪扩散过程）核心贡献将视觉运动策略表示为条件去噪扩散过程，平均性能提升46.9%
8	ACT	2023.04 (RSS 2023)	Stanford, Meta, UC Berkeley	是	arXiv:2304.13705	详情论文 Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware 规模 ~80M 输入 RGB图像（多相机）, 关节位置, 本体感知输出动作块（未来k步动作序列）核心贡献预测固定长度的动作序列而非单步动作，提高时序连贯性和样本效率
9	RT-2	2023.07	Google DeepMind	否	arXiv:2307.15818	详情论文 RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control 规模 — 输入相机图像, 自然语言指令输出机器人动作（文本token形式）核心贡献在VLM(PaLI-X/PaLM-E)上联合微调机器人数据和网络数据，将动作表示为语言token
10	RoboFlamingo	2023.08 (ICLR 2024)	ByteDance, 清华, 上海交大, NUS 等	是	arXiv:2311.01378	详情论文 Vision-Language Foundation Models as Effective Robot Imitators 规模 3B/4B/9B（基于OpenFlamingo）输入图像, 自然语言指令输出机器人操作动作核心贡献将预训练VLM(OpenFlamingo)适配用于机器人模仿学习，在CALVIN上达SOTA
11	RT-X	2023.10 (ICRA 2024)	Open X-Embodiment Collaboration (21家机构)	是	arXiv:2310.08864	详情论文 Open X-Embodiment: Robotic Learning Datasets and RT-X Models 规模 — 输入多机器人观测（图像、本体感知等）输出跨具身机器人动作核心贡献 21家机构、22种机器人、527种技能的标准化数据集，证明跨机器人正迁移
12	LEO	2023.11 (ICML 2024)	BIGAI, 北京大学, CMU, 清华	是	arXiv:2311.12871	详情论文 An Embodied Generalist Agent in 3D World 规模 — 输入 2D图像（自我中心）, 3D点云, 语言指令输出机器人动作, 3D描述, 导航命令核心贡献 3D世界中的多模态通才Agent，融合2D/3D视觉编码器和LLM
13	GR-1	2023.12 (ICLR 2024)	ByteDance	是	arXiv:2312.13139	详情论文 Unleashing Large-Scale Video Generative Pre-training for Visual Robot Manipulation 规模 — 输入语言指令, 观测图像序列, 机器人状态输出机器人动作, 未来图像核心贡献 GPT风格Transformer进行大规模视频生成预训练+机器人数据微调，CALVIN 94.9%成功率

二、探索阶段（2024年）

序号	工作名称	提出时间	研究机构	是否开源	链接	详情
14	3D-VLA	2024.03	UMass Amherst	是	arXiv:2403.09631	详情论文 3D-VLA: A 3D Vision-Language-Action Generative World Model 规模 — 输入 3D点云, 图像, 语言指令输出机器人动作, 目标图像, 目标点云核心贡献引入3D世界模型的VLA，在规划动作前推理未来场景
15	RT-H	2024.03 (RSS 2024)	Google DeepMind, Stanford	否	arXiv:2403.01823	详情论文 RT-H: Action Hierarchies Using Language 规模 — 输入视觉观测, 语言指令输出语言运动描述（中间层）, 机器人动作核心贡献用语言运动作为高级任务和低级动作间的中间层，支持人类语言纠正
16	Octo	2024.05	多机构 (Octo Team)	是	arXiv:2405.12213	详情论文 Octo: An Open-Source Generalist Robot Policy 规模 27M/93M 输入图像（腕部/第三方相机）, 语言/目标图像, 本体感知输出机器人动作核心贡献开源Transformer扩散策略，800k轨迹训练，可在消费级GPU上高效微调
17	LLARVA	2024.06 (CoRL 2024)	UC Berkeley	是	arXiv:2406.11815	详情论文 LLARVA: Vision-Action Instruction Tuning Enhances Robot Learning 规模 — 输入图像, 语言指令, 本体感知输出机器人动作, 视觉轨迹核心贡献引入视觉-动作指令微调和"视觉轨迹"中间表征
18	OpenVLA	2024.06	Stanford, UC Berkeley, MIT等	是	arXiv:2406.09246	详情论文 OpenVLA: An Open-Source Vision-Language-Action Model 规模 7B 输入图像（SigLIP+DINOv2）, 语言指令输出 token化机器人动作核心贡献开源7B VLA，以7倍少的参数超越RT-2-X(55B) 16.5%成功率
19	RoboMamba	2024.06 (NeurIPS 2024)	北京大学, BAAI, AI2Robotics	是	arXiv:2406.04339	详情论文 RoboMamba: Efficient Vision-Language-Action Model for Robotic Reasoning and Manipulation 规模 — 输入图像, 语言指令输出机器人动作, SE(3)位姿核心贡献用Mamba(SSM)架构实现3倍推理加速，仅需0.1%参数微调
20	ECoT	2024.07 (CoRL 2024)	Stanford, UC Berkeley	是	arXiv:2407.08693	详情论文 Robotic Control via Embodied Chain-of-Thought Reasoning 规模 — 输入图像, 语言指令, 机器人状态输出多步推理, 机器人动作核心贡献训练VLA在执行动作前进行具身推理，OpenVLA成功率提升28%
21	Gen2Act	2024.09 (CoRL 2025)	Google DeepMind, CMU, Stanford	—	arXiv:2409.16283	详情论文 Gen2Act: Human Video Generation in Novel Scenarios enables Generalizable Robot Manipulation 规模 — 输入语言指令, 图像输出生成的人类演示视频, 机器人动作核心贡献两阶段：先生成人类演示视频，再基于视频执行策略，实现零样本泛化
22	TinyVLA	2024.09 (RA-L 2025)	美的集团, 华东师范大学, 上海大学, 北京人形机器人创新中心	是	arXiv:2409.12514	详情论文 TinyVLA: Towards Fast, Data-Efficient Vision-Language-Action Models for Robotic Manipulation 规模 — 输入图像, 语言指令输出机器人动作（扩散策略解码器）核心贡献紧凑型VLA，推理速度比OpenVLA快20倍，无需大规模预训练
23	HPT	2024.09 (NeurIPS 2024 Spotlight)	MIT CSAIL, Meta AI	是	arXiv:2409.20537	详情论文 Scaling Proprioceptive-Visual Learning with Heterogeneous Pre-trained Transformers 规模 1B 输入本体感知, 视觉（不同具身）输出机器人控制动作核心贡献预训练共享Transformer主干学习任务和具身无关表征，52个数据集200k+轨迹
24	HiRT	2024.09	清华大学, UC Berkeley	是	arXiv:2410.05273	详情论文 HiRT: Enhancing Robotic Control with Hierarchical Robot Transformers 规模 InstructBLIP 7B + 轻量策略输入 RGB图像, 语言指令输出机器人动作核心贡献层级架构：低频VLM语义理解+高频轻量策略实时控制，推理延迟降低58%
25	RDT	2024.10	清华大学	是	arXiv:2410.07864	详情论文 RDT-1B: a Diffusion Foundation Model for Bimanual Manipulation 规模 1.2B 输入 RGB图像(3视角), 语言指令, 控制频率, 本体感知输出机器人动作（预测64步）核心贡献最大的扩散基础模型用于双臂操作，物理可解释统一动作空间
26	LAPA	2024.10	KAIST, UW, Microsoft, NVIDIA, AI2	是	arXiv:2410.11758	详情论文 Latent Action Pretraining from Videos 规模 7B 输入 RGB图像, 语言指令输出潜在动作→机器人动作核心贡献首个无需动作标签的VLA预训练方法，从视频学习潜在动作，效率提升30倍
27	π₀	2024.10	Physical Intelligence	是	arXiv:2410.24164	详情论文 π₀: A Vision-Language-Action Flow Model for General Robot Control 规模 — 输入 RGB图像, 语言指令输出连续机器人动作（flow matching）核心贡献基于flow matching的VLA，继承VLM语义知识，跨平台通用机器人控制
28	RoboDual	2024.10	上海交大, 上海AI Lab, 港大, AgiBot	是	arXiv:2410.08001	详情论文 Towards Synergistic, Generalized, and Efficient Dual-System for Robotic Manipulation 规模专家20M + VLA 输入 RGB图像, 语言提示输出机器人动作（多步）核心贡献通才VLA+专家扩散策略双系统，真实任务提升26.7%，频率提升3.8倍
29	CogACT	2024.11	Microsoft Research Asia, 清华, USTC	是	arXiv:2411.19650	详情论文 CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation 规模 ~7B 输入 RGB图像, 语言指令输出连续动作序列（扩散Transformer）核心贡献组件化VLA架构，解耦认知与动作预测，仿真成功率+35%，实机+55%
30	GR-2	2024.10	ByteDance Research	部分	arXiv:2410.06158	详情论文 GR-2: A Generative Video-Language-Action Model with Web-Scale Knowledge for Robot Manipulation 规模 — 输入视频帧, 语言指令输出机器人动作, 视频生成核心贡献 38M视频clips预训练捕获世界动态，100+任务97.7%平均成功率
31	VPP	2024.12	清华, UC Berkeley, 上海AI Lab, Robot Era	是	arXiv:2412.14803	详情论文 Video Prediction Policy: A Generalist Robot Policy with Predictive Visual Representations 规模 — 输入 RGB图像, 语言指令输出机器人动作核心贡献利用视频扩散模型的预测视觉表征学习控制，CALVIN提升18.6%
32	RoboVLMs	2024.12	清华, ByteDance, CASIA, 上海交大, NUS	是	arXiv:2412.14058	详情论文 Towards Generalist Robot Policies: What Matters in Building Vision-Language-Action Models 规模 — 输入 RGB图像, 语言指令输出机器人动作核心贡献系统性研究VLA设计选择，600+实验、8+VLM骨干、4种策略架构
33	TraceVLA	2024.12	UMD, Microsoft Research	是	arXiv:2412.10345	详情论文 TraceVLA: Visual Trace Prompting Enhances Spatial-Temporal Awareness for Generalist Robotic Policies 规模 7B / 4B 输入 RGB图像（叠加视觉轨迹）, 语言指令输出机器人动作核心贡献视觉轨迹提示增强时空感知，实机任务性能提升3.5倍
34	FLIP	2024.12	NUS	—	arXiv:2412.08261	详情论文 FLIP: Flow-Centric Generative Planning as General-Purpose Manipulation World Model 规模 — 输入 RGB图像, 语言指令输出图像流, 视频计划, 机器人动作核心贡献基于模型规划框架，图像流作为通用动作表示，合成长时域计划
35	DiVLA	2024.12	Midea Group等	—	arXiv:2412.03293	详情论文 Diffusion-VLA: Generalizable and Interpretable Robot Foundation Model via Self-Generated Reasoning 规模 2B–72B 输入 RGB图像, 语言指令输出机器人动作（扩散模型）+ 自生成推理核心贡献统一自回归模型（推理）与扩散模型（动作），推理注入模块

三、快速发展阶段（2025年）

序号	工作名称	提出时间	研究机构	是否开源	链接	详情
36	π₀-FAST	2025.01	Physical Intelligence, UC Berkeley, Stanford	是	arXiv:2501.09747	详情论文 FAST: Efficient Action Tokenization for Vision-Language-Action Models 规模基于π₀ (3B骨干) 输入图像观测, 语言指令输出机器人动作（FAST tokenization）核心贡献频域动作序列token化(DCT)，训练速度提升5倍，保持精度
37	SpatialVLA	2025.01	上海AI Lab, ShanghaiTech, TeleAI	是	arXiv:2501.15830	详情论文 SpatialVLA: Exploring Spatial Representations for Visual-Language-Action Models 规模 3.5B 输入图像观测, 语言指令输出机器人动作(7D) 核心贡献引入Ego3D位置编码注入3D空间信息，自适应动作网格离散化
38	UP-VLA	2025.01 (ICML 2025)	清华大学, 上海齐智研究所	是	arXiv:2501.18867	详情论文 UP-VLA: A Unified Understanding and Prediction Model for Embodied Agent 规模 — 输入图像观测, 语言指令输出机器人动作, 未来图像预测核心贡献统一多模态理解与未来预测的训练范式
39	DexVLA	2025.02	Midea Group, 华东师范大学	是	arXiv:2502.05855	详情论文 DexVLA: Vision-Language Model with Plug-In Diffusion Expert for General Robot Control 规模扩散专家1B 输入视觉, 语言, 机器人状态输出机器人动作（扩散动作专家）核心贡献插件式扩散动作专家(1B)+具身课程学习，支持单臂/双臂/灵巧手
40	Magma	2025.02 (CVPR 2025)	Microsoft Research, UMD, UW-Madison, KAIST, UW	是	arXiv:2502.13130	详情论文 Magma: A Foundation Model for Multimodal AI Agents 规模 8B 输入视觉, 语言, 时空信息输出数字/物理环境中的动作核心贡献 VLM扩展空间时序智能(SoM+ToM)，统一数字和物理世界Agent
41	ARM4R	2025.02 (ICML 2025)	UC Berkeley	是	arXiv:2502.13142	详情论文 Pre-training Auto-regressive Robotic Models with 4D Representations 规模 — 输入自我中心人类视频, 机器人演示输出机器人本体状态和动作核心贡献 4D表征（3D点跟踪随时间）从人类视频预训练机器人模型
42	ChatVLA	2025.02 (EMNLP 2025)	Midea Group, 华东师范大学, 上海大学, 清华等	—	arXiv:2502.14420	详情论文 ChatVLA: Unified Multimodal Understanding and Robot Control with Vision-Language-Action Model 规模 — 输入视觉, 语言, 多模态数据输出机器人动作 + 多模态理解输出核心贡献分阶段对齐训练+MoE解决VLA训练中的遗忘和任务干扰
43	Hi Robot	2025.02	Physical Intelligence, Stanford, UC Berkeley	—	arXiv:2502.19417	详情论文 Hi Robot: Open-Ended Instruction Following with Hierarchical Vision-Language-Action Models 规模 — 输入视觉, 语言, 实时反馈输出机器人动作（层级双系统）核心贡献层级系统：高层VLM推理分解+低层π₀执行，支持实时反馈纠正，复杂任务85%成功率
44	OpenVLA-OFT	2025.02 (RSS 2025)	Stanford University	是	arXiv:2502.19645 官网 Code	详情论文 Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success 规模基于 OpenVLA (7B)，OFT 微调（LoRA 等参数高效）输入图像（第三方/腕部多视角）, 语言指令, 本体感知输出连续机器人动作（并行解码、动作块）核心贡献优化微调方案(OFT)：并行解码+动作分块+连续动作表示+L1 回归，可选 FiLM 增强语言理解；LIBERO 四套任务平均成功率 97.1%（SOTA），动作生成吞吐约 26×、延迟约 3× 降低；ALOHA 双臂真机 25Hz 控制，优于微调 VLA(π₀、RDT-1B)与从零训练策略(ACT、Diffusion Policy)；RSS 2025 接收
45	DexGraspVLA	2025.02 (AAAI 2026 Oral)	北京大学, HKUST(GZ), UPenn	是	arXiv:2502.20900	详情论文 DexGraspVLA: A Vision-Language-Action Framework Towards General Dexterous Grasping 规模 — 输入视觉, 语言, 深度信息输出灵巧抓取动作核心贡献层级VLM规划器+扩散控制器，零样本灵巧抓取成功率90%+
46	GO-1	2025.03	AgiBot, OpenDriveLab, 上海创新研究院	是	arXiv:2503.06669	详情论文 GO-1 (AgiBot World Colosseo) 规模 — 输入视觉, 语言, 机器人状态输出潜在动作token (ViLLA框架) 核心贡献 100+台G1机器人1M+轨迹训练，比RDT提升32%，比OXE策略提升30%
47	HybridVLA	2025.03	北京大学, BAAI, CUHK	是	arXiv:2503.10631	详情论文 HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model 规模 7B 输入视觉, 语言, 机器人状态输出机器人动作（协同扩散+自回归）核心贡献在单一LLM中统一自回归和扩散动作预测，仿真+14%，实机+19%
48	GR00T N1	2025.03	NVIDIA	是	arXiv:2503.14734	详情论文 GR00T N1: An Open Foundation Model for Generalist Humanoid Robots 规模 2B / 3B 输入视觉, 语言, 本体感知输出机器人动作（扩散Transformer）核心贡献开源人形机器人VLA，双系统架构(VLM+扩散Transformer)，混合真实/合成数据训练
49	Gemini Robotics	2025.03	Google DeepMind	否	arXiv:2503.20020	详情论文 Gemini Robotics: Bringing AI into the Physical World 规模 — (基于Gemini 2.0) 输入视觉, 语言指令输出电机控制命令核心贡献基于Gemini 2.0的VLA，在通用性、交互性和灵巧性方面取得重大进展
50	CoT-VLA	2025.03 (CVPR 2025)	Stanford, MIT, NVIDIA等	是	arXiv:2503.22020	详情论文 CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models 规模 7B 输入视觉, 语言, 机器人观测输出未来图像帧(视觉目标) + 动作序列核心贡献预测未来图像帧作为视觉思维链，实机任务提升17%
51	π₀.₅	2025.04 (CoRL 2025)	Physical Intelligence	—	arXiv:2504.16054	详情论文 π₀.₅: a Vision-Language-Action Model with Open-World Generalization 规模 — 输入图像, 语言, 物体检测, 语义子任务输出低级机器人动作, 中间子任务预测核心贡献异构任务协同训练实现开放世界泛化，可执行10-15分钟的长时域任务
52	NORA	2025.04	DeCLaRe Lab 等	是	arXiv:2504.19854	详情论文 NORA: A Small Open-Sourced Generalist Vision Language Action Model for Embodied Tasks 规模 3B 输入图像观测, 语言指令输出机器人动作核心贡献紧凑3B VLA，基于Qwen-2.5-VL-3B+FAST+tokenizer，性能媲美大模型
53	GraspVLA	2025.05 (CoRL 2025)	北京大学, 港大, BAAI, Galbot	部分	arXiv:2505.03233	详情论文 GraspVLA: a Grasping Foundation Model Pre-trained on Billion-scale Synthetic Action Data 规模 — 输入视觉, 语言, 合成抓取数据输出机器人抓取动作核心贡献首个在十亿级合成数据(SynGrasp-1B)上预训练的抓取VLA
54	Helix	2025.05	Figure AI	部分	arXiv:2505.03912 (OpenHelix)	详情论文 Helix: A Vision-Language-Action Model for Generalist Humanoid Control 规模 — 输入视觉, 语言, 本体感知输出全身人形机器人高频连续控制核心贡献首个输出全人形上身高频连续控制的VLA，支持双机器人协作
55	3D-CAVLA	2025.05 (CVPR 2025 Workshop)	NYU	是	arXiv:2505.05800	详情论文 3D-CAVLA: Leveraging Depth and 3D Context to Generalize VLA Models for Unseen Tasks 规模基于LLaMA2-7B 输入视觉, 语言, 深度, 3D上下文输出机器人操作动作核心贡献链式思维推理+深度感知+任务导向ROI检测，LIBERO 98.1%，未见任务+8.8%
56	UniVLA	2025.05	OpenDriveLab (BAAI Vision)	是	arXiv:2505.06111	详情论文 UniVLA: Learning to Act Anywhere with Task-centric Latent Actions 规模 — 输入视觉, 语言, 异构数据输出潜在动作token 核心贡献任务中心潜在动作学习，仅需960 A100-hours (vs 21,500)，跨具身泛化
57	OneTwoVLA	2025.05	清华大学, 上海齐智研究所, 上海AI Lab, 复旦	是	arXiv:2505.11917	详情论文 OneTwoVLA: A Unified Vision-Language-Action Model with Adaptive Reasoning 规模 — 输入图像观测, 语言指令输出机器人动作 + 推理token 核心贡献自适应切换System 1/2，在关键时刻触发显式推理
58	Hume	2025.05	上海交大, 上海AI Lab, 浙大, AgiBot, 复旦	是	arXiv:2505.21432	详情论文 Hume: Introducing System-2 Thinking in Visual-Language-Action Model 规模 — 输入视觉, 语言, 机器人状态输出机器人动作（双系统架构）核心贡献引入System-2思考：价值引导低频深度思考+System-1实时级联动作去噪
59	ChatVLA-2	2025.05 (NeurIPS 2025)	Midea Group, 华东师范大学	—	arXiv:2505.21906	详情论文 ChatVLA-2: Vision-Language-Action Model with Open-World Embodied Reasoning from Pretrained Knowledge 规模 — 输入图像观测, 语言指令输出机器人动作 + 推理输出核心贡献 MoE架构+两阶段训练保留VLM能力，支持开放世界具身推理
60	Robot-R1	2025.05	KAIST, Yonsei, UC Berkeley	—	arXiv:2506.00070	详情论文 Robot-R1: Reinforcement Learning for Enhanced Embodied Reasoning in Robotics 规模 7B 输入场景图像, 环境元数据, 语言指令输出关键点状态预测, 机器人动作核心贡献 RL增强具身推理，7B模型超越GPT-4o的空间/运动推理能力
61	SmolVLA	2025.06	Hugging Face (LeRobot)	是	arXiv:2506.01844	详情论文 SmolVLA: A Vision-Language-Action Model for Affordable and Efficient Robotics 规模 450M 输入多相机视角, 机器人感觉运动状态, 语言指令输出连续机器人动作核心贡献紧凑450M VLA，性能媲美10倍大模型，单GPU训练和消费级硬件部署
62	FiS-VLA (Fast-in-Slow)	2025.06 (NeurIPS 2025)	北京大学, 港中文, 智平方, 智源 BAAI	是	arXiv:2506.01953	详情论文 Fast-in-Slow: A Dual-System Foundation Model Unifying Fast Manipulation within Slow Reasoning 规模 — 输入系统2: 2D 图像+语言；系统1: 3D 点云+图像+机器人状态输出机器人动作核心贡献异构输入+异步频率的双系统 VLA：将 VLM 最后几层重构为快执行模块(系统1)嵌入慢推理(系统2)内；控制频率 117.7 Hz(动作块8)，仿真+8%、真机+11%，AgileX/AlphaBot 真机 68%/74% 成功率
63	BitVLA	2025.06	中科院等	是	arXiv:2506.07530	详情论文 BitVLA: 1-bit Vision-Language-Action Models for Robotics Manipulation 规模 — 输入图像, 语言指令输出机器人动作核心贡献首次将1-bit量化应用于VLA，三值参数{-1,0,1}，仅29.8%内存
64	Fast ECoT	2025.06	UCL, U. of Freiburg, Cisco Research	—	arXiv:2506.07639	详情论文 Fast ECoT: Efficient Embodied Chain-of-Thought via Thoughts Reuse 规模 — 输入视觉, 语言, 机器人状态输出机器人动作（加速ECoT推理）核心贡献缓存复用高层推理+并行模块推理+异步调度，延迟降低7.5倍，无需重训
65	CoA	2025.06 (NeurIPS 2025)	ByteDance Seed, NUS, 阿德莱德大学, CAS, CSIRO	是	arXiv:2506.09990	详情论文 Chain-of-Action: Trajectory Autoregressive Modeling for Robotic Manipulation 规模 — 输入图像, 语言指令输出机器人动作轨迹核心贡献逆向推理生成动作轨迹（从目标到当前状态），动作级思维链
66	SP-VLA	2025.06	清华大学, 港中文, 上海AI Lab, UIUC	—	arXiv:2506.12723	详情论文 SP-VLA: A Joint Model Scheduling and Token Pruning Approach for VLA Model Acceleration 规模 — 输入图像, 语言指令输出机器人动作核心贡献动作感知模型调度+时空语义双感知token剪枝，加速1.5-2.4倍
67	WorldVLA	2025.06	阿里巴巴达摩院	是	arXiv:2506.21539	详情论文 WorldVLA: Towards Autoregressive Action World Model 规模 7B 输入视觉, 语言, 机器人状态输出机器人动作 + 未来图像预测核心贡献统一VLA与世界模型，注意力掩码策略缓解自回归误差传播
68	UniAct	2025.06 (CVPR 2025)	—	是	arXiv:2512.24321	详情论文 Universal Actions for Enhanced Embodied Foundation Models 规模 0.5B 输入图像观测, 语言指令输出通用动作→机器人特定命令核心贡献统一异构动作表示的通用动作空间，学习跨机器人通用原子行为
69	TriVLA	2025.07	复旦大学	—	arXiv:2507.01424	详情论文 TriVLA: A Triple-System-Based Unified VLA with Episodic World Modeling for General Robot Control 规模 — 输入图像, 语言指令输出机器人动作核心贡献三系统架构(策略学习+视觉语言+动态感知)+情景世界模型
70	DreamVLA	2025.07 (NeurIPS 2025)	上海交大, 清华, Galbot, 北大, UIUC, 中科大等	是	arXiv:2507.04447	详情论文 DreamVLA: A VLA Model Dreamed with Comprehensive World Knowledge 规模 — 输入图像, 语言指令输出机器人动作 + 世界知识预测（动态区域、深度、语义）核心贡献感知-预测-动作环路，预测中间世界知识表征而非图像
71	GR-3	2025.07	ByteDance Seed (硬件: Fourier Intelligence)	—	arXiv:2507.15493	详情论文 GR-3 Technical Report 规模 — 输入语言指令, 环境观测, 机器人状态输出双臂移动机器人动作块核心贡献 VLM+动作预测的大规模VLA，多面训练(网络数据+人类VR数据+机器人数据)
72	GR-RL	2025.12	ByteDance Seed	—	arXiv:2512.01801	详情论文 GR-RL: Going Dexterous and Precise for Long-Horizon Robotic Manipulation 规模约 5B（MoT 架构，Qwen2.5-VL 骨干 + 51.5M 噪声预测器）输入图像, 语言指令, 机器人状态输出机器人动作核心贡献将通用 VLA(GR-3) 转为长时域灵巧操作策略：离线数据过滤(TD3+BC 任务进度)+形态对称数据增强+在线强化学习(隐空间噪声预测)；真机穿鞋带任务成功率从 GR-3 基线 45.7% 提升至 83.3%，具备纠错与重试能力
73	StereoVLA	2025.12	Galbot, 北京大学, 港大, 中科院自动化所, BAAI 等	是	arXiv:2512.21970 Code	详情论文 StereoVLA: Enhancing Vision-Language-Action Models with Stereo Vision 规模 — 输入立体双目图像, 自然语言指令输出机器人操作动作核心贡献将立体视觉引入 VLA：提出几何-语义特征提取模块（几何特征来自双目视差、语义特征来自单目），融合几何与语义；辅助交互区域深度估计任务增强空间感知并加速收敛；在立体设定下多类操作任务显著优于基线，对相机位姿变化具有强鲁棒性

四、2026年及以后（按时间排序，日期到日）

序号	工作名称	提出时间	研究机构	是否开源	链接	详情
74	ActiveVLA	2026-01-13	复旦大学, 上海创新研究院, 南洋理工	是	arXiv:2601.08325	详情论文 ActiveVLA: Injecting Active Perception into Vision-Language-Action Models for Precise 3D Robotic Manipulation 规模 — 输入多视角 2D/3D, 语言指令输出机器人动作核心贡献主动感知：粗到细关键区域定位 + 主动视角选择与 3D zoom-in；RLBench/COLOSSEUM/GemBench SOTA，较基线提升最高 41%，可迁移真机
75	LingBot-VLA	2026-01-26	蚂蚁灵波 (Robbyant / Ant Group)	是	arXiv:2601.18692	详情论文 A Pragmatic VLA Foundation Model 规模基于 Qwen2.5-VL-3B + Flow Matching 动作专家输入图像（可配深度）, 语言指令, 本体感知输出连续机器人动作核心贡献约 2 万小时真机数据、9 种双臂构型预训练；GM-100 真机基准跨本体泛化 17.3%（含深度），RoboTwin 2.0 较 π₀.₅ 提升 9.92%；LingBot-Depth 深度蒸馏增强空间感知；训练效率较 StarVLA/OpenPI 约 1.5–2.8×，80 条演示即可任务迁移；全面开源
76	GeneralVLA	2026-02-04	AIGeeksGroup（GitHub 组织，作者含 Zeyu Zhang 等）	是	arXiv:2602.04315	详情论文 GeneralVLA: Generalizable Vision-Language-Action Models with Knowledge-Guided Trajectory Planning 规模 — 输入视觉, 语言指令输出机器人轨迹/动作核心贡献零样本泛化：分层架构（affordance 分割 + 3D 轨迹规划 + 3D 感知控制），无需真实机器人数据；14 个任务轨迹生成优于 VoxPoser
77	ST4VLA	2026-02-10 (ICLR 2026)	上海 AI Lab, 复旦大学, 港科大, 南科大等	—	arXiv:2602.10109	详情论文 ST4VLA: Spatially Guided Training for Vision-Language-Action Models 规模 — 输入图像, 语言指令输出机器人动作核心贡献空间引导训练：空间 grounding 预训练（点/框/轨迹预测）+ 空间引导动作后训练；Google Robot SimplerEnv 66.1→84.6，WidowX 54.7→73.2，未见物体泛化与鲁棒性提升
78	Xiaomi-Robotics-0	2026-02-13	小米 (Xiaomi)	是	arXiv:2602.12684 Code	详情论文 Xiaomi-Robotics-0: An Open-Sourced Vision-Language-Action Model with Real-Time Execution 规模 4.7B（Qwen3-VL-4B 骨干 + 700M DiT 动作）输入图像, 语言指令输出机器人动作序列核心贡献异步执行实现消费级 GPU 实时推理；LIBERO 98.7%、CALVIN 4.75–4.80、SimplerEnv 85.5%/74.7%/79.2%；双臂 Lego 拆解/毛巾折叠真机；Apache 2.0 开源
79	RynnBrain	2026-02-13	阿里达摩院 (Alibaba DAMO Academy)	是	arXiv:2602.14979 Code	详情论文 RynnBrain: Open Embodied Foundation Models 规模 2B / 8B / 30B-A3B (MoE) 输入视觉, 语言, 时空上下文输出具身理解/规划/动作（变体 RynnBrain-VLA/Plan/Nav/CoP）核心贡献开放具身基础模型：自我中心理解、时空定位、物理推理、物理感知规划；20 个具身基准 + 8 个通用视觉基准领先；开源 Hugging Face/ModelScope
80	SimVLA	2026-02-20	Frontier Robotics（作者含 Zhenguo Li 等）	—	arXiv:2602.18224	详情论文 SimVLA: A Simple VLA Baseline for Robotic Manipulation 规模 0.5B 输入图像, 语言指令输出机器人动作核心贡献极简基线：严格解耦感知与控制，无机器人预训练；仿真 SOTA，真机性能媲美 π₀.₅ 等大模型
81	SC-VLA (Self-Correcting VLA)	2026-02-25	电子科技大学等（通讯作者 Heng Tao Shen）	—	arXiv:2602.21633	详情论文 Self-Correcting VLA: Online Action Refinement via Sparse World Imagination 规模 — 输入图像, 语言指令输出机器人动作（在线细化）核心贡献稀疏世界想象 + 辅助预测头（任务进度、未来轨迹）；步数减少 16%、成功率 +9%，真机 +14%
82	DySL-VLA	2026-02-26	北京大学 (PKU-SEC-Lab) 等	—	arXiv:2602.22896	详情论文 DySL-VLA: Efficient Vision-Language-Action Model Inference via Dynamic-Static Layer-Skipping for Robot Manipulation 规模 — 输入图像, 语言指令输出机器人动作核心贡献按动作重要性动态-静态层跳跃推理；较 RoboFlamingo 3.75× 加速、参数减 85.7×、精度 +2.1%
83	DAM-VLA	2026-03-01 (ICRA 2026)	三星电子, 汉阳大学 (Samsung AI / Hanyang University HPI Lab) 等	—	arXiv:2603.00926	详情论文 DAM-VLA: A Dynamic Action Model-Based Vision-Language-Action Framework for Robot Manipulation 规模 — 输入视觉, 语言指令输出机器人动作（手臂/夹爪路由）核心贡献 VLM 推理 + 扩散动作模型；动作路由（手臂运动 vs 夹爪操作）+ 双尺度加权；SIMPLER、FurnitureBench 及真机长时域/接触密集任务优于 SOTA

五、统计摘要

维度	统计
总计模型数	83 个
开源比例	~60%+ 完全开源
模型参数范围	27M (Octo-Small) → 72B (DiVLA)
最常见参数量	7B（OpenVLA, LAPA, TraceVLA, CogACT, CoT-VLA, HybridVLA, WorldVLA, Robot-R1等）
主要输入模态	视觉(RGB/深度/点云) + 自然语言指令 + 本体感知
主要输出模态	连续/离散机器人动作，部分同时输出视频/图像预测、推理链
重要发展趋势	扩散模型动作生成、层级/双系统架构、思维链推理、世界模型集成、轻量化/量化、跨具身泛化；2026 年：具身基础模型(RynnBrain)、零样本/知识引导(GeneralVLA)、动态动作路由(DAM-VLA)、主动感知(ActiveVLA)、实时执行(Xiaomi-Robotics-0)等

六、关键趋势总结

动作生成范式：从早期的直接回归 → 扩散策略(Diffusion Policy) → Flow Matching(π₀) → 自回归token化(FAST) → 混合方案(HybridVLA)
架构演进：单一模型 → 双系统(System 1/2) → 三系统(TriVLA) → MoE(ChatVLA)
推理能力：无推理 → ECoT显式推理 → CoT-VLA视觉思维链 → DreamVLA世界知识预测
数据效率：从需要大量机器人数据 → 利用互联网视频(LAPA/GR-2) → 合成数据(GraspVLA) → 人类视频(ARM4R)
效率优化：模型压缩(BitVLA 1-bit)、小型化(SmolVLA 450M)、推理加速(Fast ECoT 7.5×)、token剪枝(SP-VLA)、VLA 微调加速(OpenVLA-OFT 26× 吞吐)、层跳跃推理(DySL-VLA 3.75× 加速)
产业化：Google(Gemini Robotics)、NVIDIA(GR00T N1)、Physical Intelligence(π₀系列)、ByteDance(GR系列/GR-RL)、Midea(ChatVLA/DexVLA/DiVLA)、蚂蚁灵波(LingBot-VLA)、阿里(RynnBrain)、小米(Xiaomi-Robotics-0)、Figure AI(Helix)、AgiBot(GO-1)等企业深度参与
2026 年趋势：空间引导训练(ST4VLA)、主动感知(ActiveVLA)、具身基础模型(RynnBrain)、零样本/知识引导(GeneralVLA)、动态动作路由(DAM-VLA)、自纠正与世界想象(SC-VLA)、极简基线(SimVLA)、消费级实时执行(Xiaomi-Robotics-0)等

Name		Name	Last commit message	Last commit date
Latest commit History 15 Commits
.gitignore		.gitignore
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

VLA（Vision-Language-Action）模型发展全景汇总表

一、萌芽阶段（2022–2023）

二、探索阶段（2024年）

三、快速发展阶段（2025年）

四、2026年及以后（按时间排序，日期到日）

五、统计摘要

六、关键趋势总结

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Folders and files

Latest commit

History

Repository files navigation

VLA（Vision-Language-Action）模型发展全景汇总表

一、萌芽阶段（2022–2023）

二、探索阶段（2024年）

三、快速发展阶段（2025年）

四、2026年及以后（按时间排序，日期到日）

五、统计摘要

六、关键趋势总结

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Packages