Repository: TianxingChen/Embodied-AI-Guide
Branch: main
Commit: 5c61875352d7
Files: 7
Total size: 67.6 KB
Directory structure:
gitextract_nl3lun_7/
├── .gitignore
├── LICENSE
├── README.md
└── topics/
├── algorithm.md
├── control.md
├── hardware.md
└── infrastructure.md
================================================
FILE CONTENTS
================================================
================================================
FILE: .gitignore
================================================
**/.DS_Store
================================================
FILE: LICENSE
================================================
非商业使用许可协议(Non-Commercial Use License)
版权所有 (c) 2025 陈天行
除非事先获得版权所有者的书面授权,否则禁止任何形式的商业使用。
“商业使用”包括但不限于:
- 将本软件或其修改版直接或间接用于营利目的;
- 将本软件或其修改版集成到收费产品或服务中;
- 在公司、企业、机构或其他以营利为目的的组织内部使用本软件;
- 将本软件或其修改版用于任何产生或可能产生经济收益的活动。
在满足非商业条件前提下,您可以:
- 免费使用、复制本软件;
- 在非商业前提下修改本软件源码;
- 以非商业形式再分发本软件或其修改版,
但必须保留本版权声明和本许可条款的完整内容。
本软件按“现状(AS IS)”提供,不附带任何明示或暗示的保证,包括但不限于
对适销性、特定用途适用性及非侵权的保证。在任何情况下,作者均不对因使用
本软件而产生的任何索赔、损害或其他责任负责,无论该责任是合同责任、侵权
责任或其他形式。
如需商业授权,请联系:chentianxing2002@gmail.com
================================================
FILE: README.md
================================================

具身智能技术指南 Embodied-AI-Guide
> 📚 国内最热门的具身智能技术指南,一个偏「百科全书」定位的具身智能中文知识库与资料索引。欢迎 **Star / 分享 / 提 PR**,欢迎邮件联系 lumina.embodiedai@gmail.com 或 [项目发起人](https://tianxingchen.github.io/) 微信 TianxingChen_2002(请备注机构+姓名与来意)。
### 📢 News|项目进展
📷 *2026-01-15: Embodied-AI-Guide重组织完成*
⭐️ *2025-12-18: GitHub Stars 突破 10,000*
❤️ *2025-03-15: Embodied-AI-Guide正式开源*
### 🧑💻 Related Open-source Projects|相关开源项目
⭐️ Lumina Call (具身智能照片): [Website](https://lumina-embodied.ai/lumina-call)
⭐️ Datawhale Easy-Embodied: [Repo](https://github.com/datawhalechina/every-embodied)
## 🦉 Lumina具身智能社区: [点击访问](https://lumina-embodied.ai)
**扫描右下图加入`Lumina具身智能`社区**:
## 🐣 (1) Start From Here - 从这里开始
> 具身智能是指一种基于物理实体进行感知和行动的智能系统, 其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动, 从而产生智能行为和适应性。
### (1.1) How - 如何使用这份指南
我们希望的是帮助新人快速建立领域认知, 所以设计理念是:**简要**以一个实践项目带大家动手学习具身智能,同时以**百科全书形式**介绍目前具身智能涉及到的主要技术, 让大家知道不同的技术能够解决什么问题, 未来想要深入发展的时候能够有头绪。
### (1.2) About us - 关于我们
我们是一个由具身初学者组成的团队, 希望能够通过我们自己的学习经验, 为后来者提供一些帮助, 加快具身智能的普及。欢迎更多朋友加入我们的项目, 也很欢迎交友、学术合作, 有任何问题, 可以联系邮箱`chentianxing2002@gmail.com`。
## ⚒️ (2) 动手学习具身智能操作
> **建议一周内完成学习**,使用**RoboTwin 2.0**平台走通一个操作策略“生命周期”的全流程
> **完成此教程需要至少16GB显存的显卡**
### (2.1) 为什么这样选择这个教程
具身智能操作是一个很复杂的问题:**数据从哪来**、**策略怎么设计(架构与训练细节)**、**怎么评测模型性能(平台与任务设计)**。
**数据从哪来**:具身智能的数据有很多种源头,比如真机数据采集、人类视频数据、仿真合成数据、世界模型合成数据等等,其中各有各的问题,比如真机数据采集成本高、人类视频数据信息含量低、仿真合成数据Sim2Real Gap与Scaleup难题、世界模型合成数据存在幻觉等。
**策略怎么设计**:不同的网络架构选择影响模型的表现、收敛效果、推理速度等。
**怎么评测模型性能**:评测是非常重要的,否则我们不知道科学评价模型效果如何,也没办法推动技术发展。
面对以上问题,RoboTwin 2.0平台为广大科研学者提供了非常好的学习平台,RoboTwin 2.0基于易配置的SAPIEN仿真平台开发,提供了50个双臂自动化数据合成、主流操作策略训测集成、评测系统,能够辅助大家快速走起来具身智能操作策略的生命周期。过程中也可以多看看数据与评测视频,了解数据分布与策略表现。
### (2.2) 学习流程
RoboTwin 2.0:[代码](https://github.com/robotwin-Platform/robotwin) | [主页](https://robotwin-platform.github.io/) | [文档](https://robotwin-platform.github.io/doc/) | [论文](https://arxiv.org/abs/2506.18088)
展开学习流程
#### (2.2.1) 了解RoboTwin 2.0做了什么 (~1天)
阅读RoboTwin 2.0论文[paper](https://arxiv.org/pdf/2506.18088),了解仿真数据合成的方案,深入理解对于合成一条机器人数据需要什么信息,机器人有什么可以做的任务,了解[Aloha](https://www.bilibili.com/video/BV1vU421d7BJ/?spm_id_from=333.337.search-card.all.click&vd_source=ab9cf5374617c2867aaea34af29b53c9)硬件。
#### (2.2.2) 配置RoboTwin 2.0平台,数据采集 (~0.5天)
环境安装教学: [Tutorial](https://robotwin-platform.github.io/doc/usage/robotwin-install.html),根据以下数据采集脚本采集`beat_block_hammer`任务50条:
```
bash collect_data.sh ${task_name} ${task_config} ${gpu_id}
## Clean Data Example: bash collect_data.sh beat_block_hammer demo_clean 0
## Radomized Data Example: bash collect_data.sh beat_block_hammer demo_randomized 0
```
#### (2.2.4) 策略训练(~1天)
选择ACT策略进行复现 [Tutorial](https://robotwin-platform.github.io/doc/usage/ACT.html),ACT是非常经典的操作策略算法,训练此策略大约需要12GB显存,
#### (2.2.5) 测试策略(~1天)
在`demo_clean`下评测ACT成功率大约是56%(详见[Leaderboard](https://robotwin-platform.github.io/leaderboard))。
## 📄 (3) Useful Info - 有利于搭建认知的资料
这一章主要用于**快速建立对具身智能领域的整体认知**,适合在系统学习算法、工程或硬件之前,用来了解技术版图、社区生态与研究脉络。
---
**方向性与方法论资料**
- 具身智能基础技术路线(Yunlong Dong):[PDF](./files/具身智能基础技术路线-YunlongDong.pdf) | [bilibili](https://www.bilibili.com/video/BV1d5ukedEsi)
- 斯坦福机器人学导论:[website](https://www.bilibili.com/video/BV17T421k78T)
- Cyber Nachos(偏系统与工程思维):[website](https://cybernachos.github.io/)
**社区 / 社交媒体(长期跟进价值高)**
- 公众号:**石麻日记(强烈推荐)**、Lumina具身智能、机器之心、新智元、量子位、具身智能研究室、具身纪元、Human Five、Xbot具身知识库、具身智能之心、自动驾驶之心、3D视觉工坊、将门创投、RLCN强化学习研究、CVHub
- 博主(小红书):WhynotTV、穆尧_YaoMarkMu、许华哲Harry、周博宇、高飞、李弘扬、朱政、丁琰、YY硕、Mango-Man、RHOSLab #PI-李永露、正合时宜、心言任永亮、York Yang-Dyna Robotics、哲伦班长
**实验室与学术生态参考**
- Robotics 实验室总结:[zhihu link1](https://zhuanlan.zhihu.com/p/682671294?utm_psn=1782122763157188608) | [zhihu link2](https://zhuanlan.zhihu.com/p/682692024?utm_psn=1782122945184796672)
- 具身智能华人高引榜:[repo](https://github.com/Will-Gao/Embodied_Intelligence)
- Lumina 具身智能社区:[website](https://lumina-embodied.ai)
**高质量会议与期刊(论文检索时重点关注)**
Science Robotics, TRO, IJRR, JFR, RSS, RAL, IROS, ICRA, ICCV, ECCV, ICML, CVPR, NeurIPS, CoRL, ICLR, AAAI, ACL
**长期跟进研究进展与选题调研**
- Awesome Humanoid Robot Learning(Yanjie Ze):[repo](https://github.com/YanjieZe/awesome-humanoid-robot-learning)
- Paper Reading List(DeepTimber Community):[repo](https://github.com/DeepTimber-Robot-Lab/Paper-Reading-List)
- Paper List(Yanjie Ze):[repo](https://github.com/YanjieZe/Paper-List)
- RoboScholar / Embodied AI Paper List(Tianxing Chen):[repo](https://github.com/TianxingChen/Paper-List-For-EmbodiedAI)
- SOTA Paper Rating(Weiyang Jin):[website](https://waynejin0918.github.io/SOTA-paper-rating.io/)
- Awesome LLM Robotics:[repo](https://github.com/GT-RIPL/Awesome-LLM-Robotics)
- Awesome Video Robotic Papers:[repo](https://github.com/H-Freax/Awesome-Video-Robotic-Papers)
- Awesome Embodied Robotics and Agent:[repo](https://github.com/zchoi/Awesome-Embodied-Robotics-and-Agent)
- awesome-embodied-vla / va / vln:[repo](https://github.com/jonyzhang2023/awesome-embodied-vla-va-vln)
- Awesome Affordance Learning:[repo](https://github.com/hq-King/Awesome-Affordance-Learning)
- Embodied AI Paper TopConf:[repo](https://github.com/Songwxuan/Embodied-AI-Paper-TopConf)
- Awesome **RL-VLA** for Robotic Manipulation (Haoyuan Deng):[repo](https://github.com/Denghaoyuan123/Awesome-RL-VLA)
- Awesome **Efficient-VLA** for Robotic Manipulation (Weifan Guan):[repo](https://github.com/guanweifan/awesome-efficient-vla)
**年度趋势总结**
- State of Robot Learning (Dec 2025):[website](https://vedder.io/misc/state_of_robot_learning_dec_2025.html)
- 许华哲 - 具身智能:2025回望,[website](https://zhuanlan.zhihu.com/p/1983661736180589668)
- 林天威 - 具身VLA的2025:从 Demo 到通用的距离,[website](https://zhuanlan.zhihu.com/p/1989799567177307432)
## 🍎 (4) Algorithm - 算法篇
这一篇把具身智能中最常用的“算法能力栈”从下往上串了起来:底层是工程工具与几何/标定/控制这类决定系统能否稳定运行的基础;中层是视觉与多模态表征(2D/3D/4D、prompting、affordance),它们把复杂世界压缩成可泛化、可对齐、可被策略利用的中间表示;上层则是学习与决策(RL/IL、VLA、LLM+Planner、快慢系统),把感知与任务目标转成可执行动作,并逐步走向更长程、更通用、更可部署的系统形态。
- [Common Tools —— 常用工程工具](./topics/algorithm.md#common-tools)
- [Vision Foundation Models —— 视觉基础模型](./topics/algorithm.md#foundation-models)
- [Robot Learning —— 机器人学习](./topics/algorithm.md#robot-learning)
- [LLM for Robotics —— LLM+机器人](./topics/algorithm.md#llm_robot)
- [VLA —— Vision-Language-Action Models](./topics/algorithm.md#vla)
- [5.0 参考与综述](./topics/algorithm.md#vla)
- [5.1 经典工作](./topics/algorithm.md#vla)
- [5.2 分层双系统 VLA](./topics/algorithm.md#vla)
- [5.3 最新 VLA 工作](./topics/algorithm.md#vla)
- [Computer Vision —— 计算机视觉](./topics/algorithm.md#cv)
- [6.1 2D/3D/4D Vision](./topics/algorithm.md#cv)
- [6.2 Visual Prompting & Affordance](./topics/algorithm.md#cv)
- [Computer Graphics —— 计算机图形学](./topics/algorithm.md#cg)
- [Multimodal Models —— 多模态模型](./topics/algorithm.md#mm)
- [Robot Navigation —— 机器人导航](./topics/algorithm.md#navigation)
- [Embodied AI for X —— 具身智能+X](./topics/algorithm.md#embodied-ai-4-x)
- [10.1 Healthcare](./topics/algorithm.md#medical)
- [10.2 UAV](./topics/algorithm.md#uav)
- [10.3 Autonomous Driving](./topics/algorithm.md#ad)
## 🏋️♂️ (5) Infrastruture - 软件基础设施篇
这一章关注的不是“具体某个模型”,而是**支撑具身智能研究与系统落地的软件基础设施(Infrastructure)**。仿真器决定你能构建怎样的世界,基准集决定你如何比较方法优劣,数据集决定模型最终学到什么样的行为分布。它们共同构成了具身智能中**最容易被忽视、但最影响上限与复现性的部分**。
- [(1) Simulators - 仿真器](./topics/infrastructure.md#simulators)
- [(2) Benchmarks - 基准集](./topics/infrastructure.md#benchmarks)
- [(3) Datasets - 数据集](./topics/infrastructure.md#datasets)
## 🎮 (6) Control - 控制篇
这一章并不是为了让你“立刻跑一个模型”,而是为具身智能系统提供**稳定性、可解释性与工程底座**。控制论保证系统在高频下不崩溃,机器人学提供几何与动力学约束,SLAM 与状态估计让机器人“知道自己在哪里”,ROS 与工程库则把理论变成可复现的系统。
- [(1) Control and Robotics —— 控制论与机器人学基础](./topics/control.md#control-robotics)
- [(1.1) 经典课程](./topics/control.md#control-courses)
- [(2) 控制理论基础(Control Foundations)](./topics/control.md#control-foundations)
- [(2.1) 经典控制(Classical Control)](./topics/control.md#classical-control)
- [(2.2) 现代控制(最优控制)](./topics/control.md#modern-control)
- [(2.3) 先进控制(Advanced Control)](./topics/control.md#advanced-control)
- [(3) 机器人学导论(Robotics Foundations)](./topics/control.md#robotics-foundations)
- [(3.1) 推荐教材与材料](./topics/control.md#robotics-books)
- [(3.2) 运动学与动力学](./topics/control.md#kinematics-dynamics)
- [(3.3) 里程计与 SLAM](./topics/control.md#slam)
- [(3.4) 工程生态与工具](./topics/control.md#engineering-stack)
## 🦾 (7) Hardware - 硬件篇
具身智能硬件涵盖多个技术栈:嵌入式软硬件、机械设计、机器人系统集成与传感器等。它们知识面很杂,但共同目标只有一个:把“算法”变成真实世界里稳定可复现的系统。关于硬件学习,最有效的方式几乎永远是 **从实践出发**:先做出一个能跑起来的最小系统,再逐步扩展复杂度与可靠性。
- [(1) Embedded —— 嵌入式](./topics/hardware.md#embedded)
- [(2) Mechanical Design —— 机械设计](./topics/hardware.md#mechanical)
- [(3) Robot System Design —— 机器人系统设计](./topics/hardware.md#robosystem)
- [(4) Sensors —— 传感器](./topics/hardware.md#sensors)
- [(4.1) 深度相机(Depth Camera)](./topics/hardware.md#sensors)
- [(5) Tactile Sensing —— 触觉感知](./topics/hardware.md#tactile)
- [(5.1) 视触觉传感器](./topics/hardware.md#tactile)
- [(5.2) 电子皮肤](./topics/hardware.md#tactile)
- [(5.3) 触觉应用与算法](./topics/hardware.md#tactile)
- [(5.4) 传感器购买](./topics/hardware.md#tactile)
- [(6) Data Collection —— 数据采集硬件](./topics/hardware.md#data_collection)
- [(7) Companies —— 公司与硬件生态](./topics/hardware.md#companies)
## 👍 Citation - 引用
If you find this repository helpful, please consider citing:
```
@misc{embodiedaiguide2025,
title = {Embodied-AI-Guide},
author = {Embodied-AI-Guide-Contributors, Lumina-Embodied-AI-Community, Tianxing Chen},
month = {January},
year = {2025},
url = {https://github.com/tianxingchen/Embodied-AI-Guide},
}
```
## 🏷️ License - 许可协议
本项目为 **非商业使用(Non-Commercial Use)** 协议:
- 允许:个人学习、学术研究、非盈利使用;
- 禁止:任何形式的商业使用,包括但不限于公司/企业内部使用、
集成到收费产品或服务中、或用于任何营利目的。
详情请查看仓库中的 [LICENSE](./LICENSE) 文件。
如需商业授权(例如在公司产品或商业项目中使用),请联系项目负责人:chentianxing2002@gmail.com。
## ⭐️ Star History - Star历史
[](https://star-history.com/#TianxingChen/Embodied-AI-Guide&Date)
## 🤝 Sponsors - 支持机构
感谢 **无界智航、超维动力、香港大学MMLab、地瓜机器人、松灵机器人** 对本项目的支持

================================================
FILE: topics/algorithm.md
================================================
Embodied-AI-Guide
算法篇
> 这一篇把具身智能中最常用的“算法能力栈”从下往上串了起来:底层是工程工具与几何/标定/控制这类决定系统能否稳定运行的基础;中层是视觉与多模态表征(2D/3D/4D、prompting、affordance),它们把复杂世界压缩成可泛化、可对齐、可被策略利用的中间表示;上层则是学习与决策(RL/IL、VLA、LLM+Planner、快慢系统),把感知与任务目标转成可执行动作,并逐步走向更长程、更通用、更可部署的系统形态。
## (1) Common Tools —— 具身智能中的常用工程工具
这一部分聚焦于**具身智能项目中高频出现、工程上“绕不开”的工具与技巧**。
它们往往不是算法论文的核心贡献,但却决定了一个系统能否真正跑起来、跑稳定、跑到可复现。
在大多数真实或仿真 Project 中,你会反复遇到:**点云如何处理、相机和机械臂如何对齐、目标位姿如何转成可执行动作**。这些问题一旦处理不当,会在后续学习或评估阶段持续放大误差。
| 类别 | 工具/主题 | 链接 | 简要说明 |
|---|---|---|---|
| 点云处理 | 点云降采样 | [link](https://zhuanlan.zhihu.com/p/558683732) | 随机 / 均匀 / FPS / 法线空间等方法,直接影响 3D 感知质量 |
| 标定 | 手眼标定 | [link](https://github.com/fishros/handeye-calib) | 确定相机–机械臂 / 相机–相机相对位姿 |
| 控制 / 规划 | IK / 逆动力学 | [link](https://curobo.org) | 从目标位姿求解关节状态,工程中非常常见 |
在真实系统中,**手眼标定几乎是所有项目的起点**。
无论是眼在手上(Eye-in-Hand)还是眼在手外(Eye-to-Hand),你都需要在“相机坐标系看到的世界”和“机械臂执行的坐标系”之间建立可靠映射。
常见工具包括 EasyHeC、fishros 的 handeye-calib,它们在工程上足够成熟,适合直接使用。
围绕这些基础问题,社区已经沉淀了一套相对稳定的组件生态:
| 点云 / 几何 | 机器人中间件 / 规划 | 视觉标记 | 配准 |
|---|---|---|---|
| Open3D | ROS 2 | AprilTag | TEASER++ |
| PCL | MoveIt 2 | ArUco(OpenCV) | ICP(Open3D / PCL) |
这些工具本身**不直接“智能”**,但它们构成了具身智能系统的“骨架层”。
如果这一层不稳定,再强的模型也很难在真实环境中工作。
**小结**:
Common Tools 并不是为了“提升指标”,而是为了**降低系统不确定性**。在具身智能中,工程可靠性本身就是一种隐含的性能。
---
## (2) Vision Foundation Models —— 视觉基础模型在具身智能中的角色
近年来,大规模视觉基础模型已经成为**具身智能系统的重要感知支柱**。
它们并不直接输出动作,但通过提供**高质量、具有语义一致性的视觉表征**,显著降低了下游任务(检测、分割、跟踪、位姿估计、操作规划)的难度。
| 能力 | 模型 / 工具 | 链接 | 简要说明 |
|---|---|---|---|
| 图文对齐 | CLIP | [link](https://github.com/openai/CLIP) | 图像–文本共享语义空间 |
| 表征学习 | DINO (v1/v2/v3) | [link](https://github.com/facebookresearch/dino) | 高层视觉特征,对 correspondence 很有帮助 |
| 分割 | SAM / SAM2 | [link](https://segment-anything.com) | 点 / 框提示分割,SAM2 支持视频 |
| 分割追踪 | SAM3 | [link](https://ai.meta.com/sam3) | 图像与视频级持续分割 |
| 3D 重建 | SAM3D | [link](https://ai.meta.com/sam3d) | 资产 / 场景 / 人体重建 |
| 开放词表检测 | Grounding-DINO | [link](https://github.com/IDEA-Research/GroundingDINO) | 文本驱动目标检测 |
| 检测 + 分割 | Grounded-SAM | [link](https://github.com/IDEA-Research/Grounded-SAM-2) | 检测后分割,工程友好 |
| 位姿追踪 | FoundationPose | [link](https://github.com/NVlabs/FoundationPose) | 物体 6D 位姿估计 |
| 深度估计 | Depth Anything v1/v2 | [link](https://github.com/LiheYoung/Depth-Anything) | 单目深度预测 |
| 点云表征 | Point Transformer v3 | [link](https://github.com/Pointcept/PointTransformerV3) | 点云特征学习 |
| 生成 | Stable Diffusion | [link](https://github.com/CompVis/stable-diffusion) | 生成目标图像或中间表征 |
| 机器人 FM | RDT-1B | [link](https://rdt-robotics.github.io/rdt-robotics) | 双臂操作基础模型 |
| 图文对齐 | SigLIP | [link](https://huggingface.co/docs/transformers/en/model_doc/siglip) | CLIP 类模型 |
以 DINO 系列为例,它们并不是为“具身智能”设计的,但其学到的高层视觉表征在**跨实例 correspondence、关键点对齐、对象一致性**等问题上表现出很强的泛化性。这种“隐式几何一致性”对操作任务尤其重要。
在开放世界设置下,**开放词表检测与多任务模型**进一步减少了人工标注和任务定制成本:
| 开放词表 / 多任务 | 分割 | 深度 |
|---|---|---|
| OWL-ViT | Mask2Former | MiDaS |
| DETIC | SEEM | |
这些模型使系统不再局限于“训练时见过的类别”,而是可以通过语言或提示进行动态感知,这一点在长期自主、家庭场景或多任务系统中尤为关键。
**小结**:
Vision Foundation Models 的核心价值不在于“替代控制”,而在于**将复杂世界压缩成结构化、可泛化的感知表示**。
它们是当前具身智能从“任务特化系统”走向“通用系统”的关键一环。
## (3) Robot Learning —— 机器人学习(从控制到策略)
机器人学习并不是单一方向,而是一条从**经典控制(PID / MPC)**到**学习型策略(RL / IL)**的连续谱。在具身系统中,很多“成功的方案”本质上是混合式:用控制与规划保证稳定性,用学习补足复杂感知与泛化能力。本节给出一组相对系统的入门资源,同时补充工程里最常用的策略基线与仿真/代码生态,方便你快速形成学习路线并落到可跑的实验。
| 模块 | 资源 | 链接 | 说明 |
|---|---|---|---|
| 自主机器人课程 | ETH & TTIC & UdeM Robot Autonomy | 视频:[link](https://www.edx.org/learn/technology/eth-zurich-self-driving-cars-with-duckietown) / 网站:[link](https://duckietown.com/self-driving-cars-with-duckietown-mooc/) | Duckietown 平台贯穿感知-决策-控制闭环 |
| MPC 入门 | 华工机器人实验室:MPC 从公式到代码 | bilibili:[link](https://www.bilibili.com/video/BV1U54y1J7wh) / 代码:[link](https://gitee.com/clangwu/mpc_control.git) | 从 PID 过渡到 MPC,含仿真与代码 |
| RL 入门 | 强化学习的数学原理(西湖大学) | bilibili:[link](https://space.bilibili.com/2044042934/channel/collectiondetail?sid=748665) / 书+代码:[link](https://github.com/MathFoundationRL/Book-Mathematical-Foundation-of-Reinforcement-Learning) | 数学推导体系化,适合打地基 |
| DRL 速览 | Abbeel 6 Lectures | [link](https://www.youtube.com/watch?v=2GwBez0D20A) | 六讲概览 DRL,快速建立框架 |
| DRL 系统课 | Berkeley CS285 | 网站:[link](https://rail.eecs.berkeley.edu/deeprlcourse/) / YouTube:[link](https://www.youtube.com/playlist?list=PL_iWQOsE6TfVYGEGiAOMaOzzv41Jfm_Ps) | Levine 主讲,内容详尽 |
| DRL 中文课 | 李宏毅强化学习 | [link](https://www.bilibili.com/video/BV1XP4y1d7Bk) | 搭配实践(Gymnasium 等)较友好 |
| 模仿学习 | LAMDA:IL 简洁教程 | [link](https://www.lamda.nju.edu.cn/xut/Imitation_Learning.pdf) | 结构清晰,入门友好 |
| 真实机器人 IL | RSS 2024 Workshop 教程 | [link](https://www.bilibili.com/video/BV1Fx4y1s7if) | 从真实机器人监督学习的角度讲落地问题 |
为了尽快“跑通一个具身学习 pipeline”,工程上经常直接从成熟基线开始改:
| 策略基线(最常用) | 链接 | 说明 |
|---|---|---|
| ACT(Transformer Policy) | [link](https://github.com/tonyzhaozh/act) / [link](https://tonyzhaozh.github.io/aloha/) | 经典模仿学习基线,适合做对照与复现 |
| Diffusion Policy | [link](https://github.com/real-stanford/diffusion_policy) | 扩散式动作生成,实践中效果稳健 |
| DP3(3D Diffusion Policy) | [link](https://github.com/YanjieZe/3D-Diffusion-Policy) | 引入 3D 表征,适配更复杂几何 |
仿真与代码生态决定了你能否低成本迭代:同一算法在不同平台的“可用性”差异非常大。
| 仿真 / 平台 | 链接 | 常用 Codebase | 链接 |
|---|---|---|---|
| MuJoCo Playground | [link](https://playground.mujoco.org/) | legged-gym | [link](https://github.com/leggedrobotics/legged_gym) |
| Isaac Lab | [link](https://isaac-sim.github.io/IsaacLab/main/index.html) | | |
| SAPIEN | [link](https://sapien.ucsd.edu/) | | |
| Genesis | [link](https://github.com/Genesis-Embodied-AI/Genesis) | | |
**小结**:
Robot Learning 的核心不是“选 RL 还是 IL”,而是用**控制/规划保证稳定**,用**学习提升复杂感知下的泛化**。建议先用成熟基线跑通数据-训练-评估闭环,再逐步替换关键模块。
---
## (4) LLM for Robotics —— 大语言模型在机器人中的应用
LLM 在机器人领域的价值,更多体现在**高层语义理解与任务组织**:把自然语言指令转成结构化计划,或者与传统规划器、3D 感知模块协作形成“可执行”的中间表示。需要强调的是:在多数可落地系统中,LLM 并不直接输出低层控制量,而是充当**高层策略/规划器**或**工具调用与代码生成器**。
| 方向 | 代表资源 / 工作 | 链接 | 说明 |
|---|---|---|---|
| 综述 / 入门 | Robotics+LLM 系列 | [link](https://zhuanlan.zhihu.com/p/668053911) | 系列文章,适合快速扫全景 |
| 概念基础 | Embodied Agent | [link](https://en.wikipedia.org/wiki/Embodied_agent) | 具身智能体基本概念 |
| Agent 综述 | Lilian Weng:AI Agent | 中文:[link](https://mp.weixin.qq.com/s/Jb8HBbaKYXXxTSQOBsP5Wg) / 英文:[link](https://lilianweng.github.io/posts/2023-06-23-agent/) | 讲清 Agent 系统常见范式 |
| LLM 做高层规划 | PaLM-E / DIAC / LBYL / EmbodiedGPT | PaLM-E:[link](https://arxiv.org/abs/2303.03378) / DIAC:[link](https://arxiv.org/abs/2204.01691) / LBYL:[link](https://arxiv.org/abs/2311.17842) / EmbodiedGPT:[link](https://arxiv.org/abs/2305.15021) | 用 LLM 做策略/规划或决策 |
| 统一高低层 | RT-2 | [link](https://arxiv.org/abs/2307.15818) | 将语言-视觉与动作更紧密地统一 |
| LLM + Planner | LLM+P / AutoTAMP / Text2Motion | LLM+P:[link](https://arxiv.org/abs/2304.11477) / AutoTAMP:[link](https://arxiv.org/abs/2306.06531) / Text2Motion:[link](https://arxiv.org/abs/2303.12153) | 结合传统规划器提高可执行性 |
| Code 能力 | Code as Policy / Instruction2Act | CaP:[link](https://arxiv.org/abs/2209.07753) / I2A:[link](https://arxiv.org/abs/2305.11176) | 用代码中间层提升可控性 |
| 3D 感知 + LLM | VoxPoser / OmniManip | VoxPoser:[link](https://arxiv.org/abs/2307.05973) / OmniManip:[link](https://arxiv.org/abs/2501.03841) | 3D 表征辅助规划与约束 |
| 多机器人协同 | RoCo / Scalable-Multi-Robot | RoCo:[link](https://arxiv.org/abs/2307.04738) / Scalable:[link](https://arxiv.org/abs/2309.15943) | 多机器人协同规划 |
如果你更关心“离落地更近”的通用策略(而不是纯 LLM 规划),通常会与 VLA / 通用控制模型一起看:
| 更贴近落地的通用策略 | 链接 | 说明 |
|---|---|---|
| OpenVLA | [link](https://openvla.github.io/) / [link](https://arxiv.org/abs/2406.09246) | 通用操控策略代表作之一 |
| Octo | [link](https://octo-models.github.io/) / [link](https://github.com/octo-models/octo) | 强基线与工程化实现较完整 |
**小结**:
LLM 在机器人里最可靠的定位通常是**高层理解 + 规划 + 工具调用**,与传统规划/约束或 VLA 低层执行配合,系统更可控、更可复现。
---
## (5) Vision-Language-Action Models —— VLA 模型
VLA(Vision-Language-Action)可以理解为“把视觉-语言模型的能力直接延伸到动作空间”。与“VLM 做 planning”不同,VLA 的目标是更端到端:输入视觉与语言,输出可执行动作(或动作序列)。实现上通常涉及一个关键步骤:**动作表示(Action Representation)**——把连续控制量或轨迹转成模型可学习的 token / latent,并设计动作头(autoregressive、diffusion、flow 等)完成生成。
从实践角度看,VLA 的差异往往来自三件事:
(1)动作如何表示与量化(例如 tokenizer / FAST / latent action)
(2)训练数据与对齐方式(真实/仿真/合成,多机型/多任务)
(3)系统形态(单模型端到端 vs 分层双系统,是否引入 planner、world model 等)
### (5.0) 参考与综述
| 类型 | 资源 | 链接 | 备注 |
|---|---|---|---|
| Blog | 具身智能 Vision-Language-Action 的思考 | [link](https://zhuanlan.zhihu.com/p/9880769870) | |
| Blog | 具身智能 VLA 的思考(问答) | [link](https://www.zhihu.com/question/655570660/answer/87040917575) | |
| Survey | Action Tokenization 视角 VLA Survey | [link](https://arxiv.org/abs/2507.01925) / [link](https://github.com/Psi-Robot/Awesome-VLA-Papers) | 2025.07.02 |
| Survey | VLA for Embodied AI Survey | [link](https://arxiv.org/abs/2405.14093) | 2024.11.28 |
### (5.1) 经典工作
> 这里内容较多,为了不拉长页面,使用折叠。需要时展开即可。
展开:经典 VLA 工作列表(按方向归类)
| 方向 | 工作 | 链接 | 机构 | 时间 | 备注 |
|---|---|---|---|---|---|
| Autoregressive | RT-1 | [link](https://arxiv.org/abs/2212.06817) | | | RT 系列起点 |
| Autoregressive | RT-2 | [link](https://robotics-transformer2.github.io/) / [link](https://arxiv.org/abs/2307.15818) | Google DeepMind | 2023.07 | 55B |
| Autoregressive | RT-Trajectory | [link](https://arxiv.org/pdf/2311.01977) | GDM / UCSD / Stanford | 2023.11 | 轨迹化输出 |
| Autoregressive | AUTORT | [link](https://arxiv.org/abs/2401.12963) | Google DeepMind | 2024.01 | |
| Autoregressive | RoboFlamingo | [link](https://arxiv.org/abs/2311.01378) / [link](https://github.com/roboflamingo) | ByteDance / THU | 2024.02 | |
| Autoregressive | OpenVLA | [link](https://arxiv.org/pdf/2406.09246) / [link](https://github.com/openvla) | Stanford | 2024.06 | 7B |
| Autoregressive | TinyVLA | [link](https://arxiv.org/abs/2409.12514) | 上海大学 | 2024.11 | |
| Autoregressive | TraceVLA | [link](https://arxiv.org/pdf/2412.10345) / [link](https://github.com/umd-huang-lab/tracevla) | Microsoft | 2024.12 | 输入 visual trace |
| Diffusion / Flow | Octo | [link](https://arxiv.org/pdf/2405.12213) / [link](https://octo-models.github.io/) | Stanford / Berkeley | 2024.05 | Octo-base 93M |
| Diffusion / Flow | π0 | [link](https://arxiv.org/pdf/2410.24164) / [link](https://github.com/Physical-Intelligence/openpi) | Stanford / PI | | 3.3B;flow-based diffusion |
| Diffusion / Flow | CogACT | [link](https://arxiv.org/pdf/2411.19650) / [link](https://github.com/microsoft/CogACT.git) | THU / MSRA | 2024.11 | 7B |
| Diffusion / Flow | Diffusion-VLA | [link](https://arxiv.org/abs/2412.03293) | 华东师范等 | 2024.12 | |
| 3D Vision | 3D-VLA | [link](https://arxiv.org/pdf/2403.09631) / [link](https://github.com/UMass-Foundation-Model/3D-VLA/tree/main) | UMass | 2024.03 | 3D-based LLM |
| 3D Vision | SpatialVLA | [link](https://arxiv.org/pdf/2501.15830) / [link](https://github.com/SpatialVLA/SpatialVLA) | 上海 AI Lab | 2025.01 | Adaptive Action Grid |
| VLA-related | FAST(π0) | [link](https://arxiv.org/pdf/2410.24164) / [link](https://github.com/Physical-Intelligence/openpi.git) | Stanford / Berkeley / PI | 2025.01 | 动作 tokenizer |
| VLA-related | RLDG | [link](https://generalist-distillation.github.io/static/high_performance_generalist.pdf) | Berkeley | 2024.12 | 用 RL 生成高质数据再蒸馏 |
| VLA-related | BYO-VLA | [link](https://arxiv.org/abs/2410.01971) / [link](https://github.com/irom-princeton/byovla) | Princeton | 2024.10 | 运行时图像干预 |
| 场景扩展 | RDT-1B(双臂) | [link](https://arxiv.org/pdf/2410.07864) / [link](https://github.com/thu-ml/RoboticsDiffusionTransformer) | 清华 | | 扩散式动作头 |
| 场景扩展 | QUAR-VLA(四足) | [link](https://arxiv.org/pdf/2312.14457) | 西湖 / 浙大 | 2025.02.04 | |
| 场景扩展 | CoVLA(自动驾驶) | [link](https://arxiv.org/abs/2408.10845) / [link](https://turingmotors.github.io/covla-ad/) | Turing | 2024.12 | |
| 场景扩展 | Mobility-VLA(导航) | [link](https://arxiv.org/pdf/2407.07775) | Google DeepMind | 2024.07 | |
| 场景扩展 | NaVILA(腿式导航) | [link](https://arxiv.org/pdf/2412.04453) / [link](https://navila-bot.github.io/) | UCSD | 2024.12 | |
### (5.2) 分层双系统 VLA(2025.05 更新)⭐
近一年一个非常强的范式是“分层双系统”:
**System 2**(慢系统)负责理解与规划(通常是 VLM/LLM),输出语言/符号/latent 的中间表示;
**System 1**(快系统)负责高频、稳定的低层控制(VLA / policy),将中间表示转成连续动作。
它的直观优势是:在长任务与复杂场景中,把“推理/规划”与“高频控制”解耦,既提升可解释性,也更易做工程约束与安全策略。
| 维度 | 常见差异点 | 例子 |
|---|---|---|
| 架构形态 | 单模型 vs 双模型 | Hi-Robot(VLM+VLA) vs π 系列(单模型范式) |
| 通信方式 | 指令 / 子目标 / latent vector | 中间表征粒度决定可控性与泛化 |
| 数据来源 | 真实 / 仿真 / 合成 | 不同数据组成直接影响鲁棒性 |
| 关注重点 | 频率、任务跨度、跨本体 | 人形/移动操作/长程任务等 |
同时也出现了不少“产业级 VLA/系统”,强调端到端能力与部署:
| 系统 / 产品 | 链接 | 时间 | 备注 |
|---|---|---|---|
| Figure:Helix | [link](https://www.figure.ai/news/helix) | 2025.02.20 | 上半身全身控制 |
| 智元:GO-1 | [link](https://www.zhiyuan-robot.com/article/189/detail/56.html) | 2025.03.10 | ViLLA:VLM+MoE,vision-language-latent-action |
| Physical Intelligence(openpi) | [link](https://github.com/Physical-Intelligence/openpi) | | |
| π0.5 | [link](https://arxiv.org/abs/2504.16054) | 2025.04.22 | 高级任务分解 + 单模型低层执行 |
| Hi Robot | [link](https://arxiv.org/abs/2502.19417) | 2025.02.26 | VLM 推理 + VLA 执行 |
| Nvidia:GROOT-N1 | [link](https://github.com/NVIDIA/Isaac-GR00T) / [link](https://arxiv.org/abs/2503.14734) | 2025.03.27 | 2B,全身控制,强调部署 |
| Psi-R1(灵初智能) | [link](https://www.jiqizhixin.com/articles/2025-03-03-9) | 2025.04.27 | 分层端到端 VLA + RL,test-time scaling |
| Gemini Robotics | [link](https://arxiv.org/pdf/2503.20020) | 2025.03.25 | 50 Hz |
| Gemini Robotics on-device | [link](https://deepmind.google/discover/blog/gemini-robotics-on-device-brings-ai-to-local-robotic-devices/) | 2025.06.24 | 设备端部署导向 |
### (5.3) 最新 VLA 工作(滚动更新)
展开:2025 年以来的代表工作
| 工作 | 链接 | 机构 | 时间 | 备注 |
|---|---|---|---|---|
| VQ-VLA | [link](https://arxiv.org/pdf/2507.01016) / [link](https://github.com/xiaoxiao0406/VQ-VLA) | 上海 AI Lab 等 | 2025.07.01 | VQ action tokenizer |
| WorldVLA | [link](https://arxiv.org/pdf/2506.21539) / [link](https://github.com/alibaba-damo-academy/WorldVLA) | 阿里达摩院等 | 2025.06.21 | VLA + World Model 统一 |
| BridgeVLA | [link](https://arxiv.org/abs/2506.07961) / [link](https://github.com/BridgeVLA/BridgeVLA) | CASIA / ByteDance Seed 等 | 2025.06.07 | 3D 对齐到 2D |
| TrackVLA | [link](https://arxiv.org/pdf/2505.23189) / [link](https://github.com/wsakobe/TrackVLA) | 北大等 | 2025.05.29 | 实时检测与导航 |
| OneTwoVLA | [link](https://arxiv.org/pdf/2505.11917) / [link](https://github.com/Fanqi-Lin/OneTwoVLA) | 清华等 | 2025.05.17 | 推理与执行协同 |
| UniVLA | [link](https://arxiv.org/pdf/2505.06111) / [link](https://github.com/OpenDriveLab/UniVLA) | 港大等 | 2025.05.09 | 潜在动作表征 |
| MoManipVLA | [link](https://arxiv.org/pdf/2503.13446) / [link](https://gary3410.github.io/momanipVLA/) | 北邮 / NTU 等 | 2025.03.17 | 移动操作 |
| TLA | [link](https://arxiv.org/pdf/2503.08548) / [link](https://sites.google.com/view/tactile-language-action/) | 三星等 | 2025.03.11 | 引入触觉模态 |
| PointVLA | [link](https://arxiv.org/pdf/2503.07511) / [link](https://pointvla.github.io/) | 美的等 | 2025.03.10 | 点云微调 2D VLA |
| SafeVLA | [link](https://arxiv.org/abs/2503.03480) / [link](https://github.com/PKU-Alignment/SafeVLA) | 北大 | 2025.03.05 | 安全对齐 |
| HybridVLA | [link](https://arxiv.org/pdf/2503.10631) / [link](https://github.com/PKU-HMI-Lab/Hybrid-VLA) | 北大 | 2025.03.17 | 扩散 + 自回归统一 |
| DexVLA | [link](https://arxiv.org/pdf/2502.05855) / [link](https://github.com/juruobenruo/DexVLA) | 美的 / 东南 | 2025.02.09 | 多 action head |
| DexGraspVLA | [link](https://arxiv.org/abs/2502.20900) / [link](https://github.com/Psi-Robot/DexGraspVLA) | 北大 | 2025.02.28 | 灵巧手抓取 |
| UP-VLA | [link](https://arxiv.org/pdf/2501.18867) | 清华 | 2025.02.03 | 预测辅助 |
| UniAct | [link](https://arxiv.org/abs/2501.10105) / [link](https://github.com/2toinf/UniAct) | 清华 | | 通用动作空间 |
| CoT-VLA | [link](https://arxiv.org/pdf/2503.22020) | Nvidia / Stanford | | CoT 融入 VLA |
**小结**:
VLA 的研究正在从“把动作 token 化”走向“更可控、更可部署、更长程”的系统形态:分层架构、world model、3D 表征与安全对齐都在加速融合。做项目时建议优先关注动作表示与数据配方,它们往往比换 backbone 更影响最终表现。
## (6) Computer Vision —— 计算机视觉
具身智能几乎所有下游能力(抓取、操作、导航、交互)都建立在视觉之上。和纯 CV 不同,具身更关心的是:**在变化的光照、遮挡、视角、运动模糊与跨域条件下,视觉表征是否稳定**,以及它是否能与几何(深度/点云)和语言(指令/目标)对齐。本节将视觉按“2D → 3D → 4D(视频/时序)→ Prompting/可供性”串起来,便于你形成一条连续的学习路线。
| 课程/资源 | 链接 | 说明 |
|---|---|---|
| CS231n(Stanford) | [link](https://cs231n.stanford.edu/schedule.html) | 深度学习 CV 全景课,适合视频+讲义快速建立体系 |
### (6.1) 2D / 3D / 4D Vision(从图像到时空)
> 为了不把页面拉得太长,这里把 2D/3D/4D 的资源合并成一个“能力栈表”。你可以按需选择深入方向。
| 层级 | 关注点(具身视角) | 代表资源 | 链接 |
|---|---|---|---|
| 2D Vision | 稳定表征与泛化:backbone、对比学习、生成式表征 | CNN 概念 / ResNet / ViT / Swin | CNN:[link](https://easyai.tech/ai-definition/cnn/;ResNet:https://www.bilibili.com/video/BV1P3411y7nn;ViT:https://www.bilibili.com/video/BV15P4y137jb;Swin:https://www.bilibili.com/video/BV13L4y1475U) |
| 2D Vision | 表征学习方法论:对比学习与大规模预训练 | 对比学习综述 | [link](https://www.bilibili.com/video/BV19S4y1M7hm) |
| 2D/4D Gen | 生成式模型(用于表征、合成数据、目标图像等) | 自回归综述 / 扩散综述 / 扩散推导 | 自回归:[link](https://arxiv.org/pdf/2411.05902;扩散:https://arxiv.org/pdf/2209.00796;推导:https://kexue.fm/archives/9119) |
| 3D Vision | 多视几何与三维理解(对重建/位姿/点云感知很关键) | Andreas Geiger 3D Vision | [link](https://uni-tuebingen.de/fakultaeten/mathematisch-naturwissenschaftliche-fakultaet/fachbereiche/informatik/lehrstuehle/autonomous-vision/lectures/computer-vision/) |
| 3D Vision | 三维重建与理解(偏工程与应用) | GAMES203 | [link](https://www.bilibili.com/video/BV1pw411d7aS) |
| 3D/Gen | 2D/3D 生成方向梳理 | 论文分类 / 2024 论文整理 | 分类:[link](https://zhuanlan.zhihu.com/p/617510702;2024:https://zhuanlan.zhihu.com/p/700895749) |
| 4D Vision | 视频理解:时序建模与跨帧一致性(具身中非常常见) | 开山之作 / 串讲 / 综述 | 开山:[link](https://www.bilibili.com/video/BV1mq4y1x7RU;串讲:https://www.bilibili.com/video/BV1fL4y157yA;综述:https://arxiv.org/pdf/2312.17432) |
| 4D Gen | 视频/4D 生成(用于合成与世界建模相关) | Lilian Weng 视频扩散博客 / 4D generation list | 博客:[link](https://lilianweng.github.io/posts/2024-04-12-diffusion-video/;list:https://github.com/cwchenwang/awesome-4d-generation) |
### (6.2) Visual Prompting & Affordance Grounding
具身视觉的一个关键变化是:我们不只想识别物体,而是要回答“**哪里能抓、怎么推、哪能开合**”。
因此在工程系统里,视觉常常以两种形式进入控制:
(1)通过 prompt / 标注把视觉模型“定向”到当前任务;(2)通过 affordance 将视觉输出直接变成可执行的交互区域或动作参数。
| 方向 | 资源 | 链接 | 说明 |
|---|---|---|---|
| Visual Prompting | 视觉提示综述 | [link](https://arxiv.org/abs/2409.15310) | Prompt 作为任务条件,连接视觉与决策 |
| Visual Prompting | PIVOT | [link](https://pivot-prompt.github.io) | 迭代式视觉问答,zero-shot 控制与空间推理 |
| Visual Prompting | Set-of-Mark(SoM)for GPT-4V | [link](https://som-gpt4v.github.io) | 用可视标记提升可控性与对齐 |
| 维度 | 工作/数据集 | 链接 | 说明 |
|---|---|---|---|
| 2D Affordance | Cross-View-AG / AGD20K | [link](https://arxiv.org/pdf/2203.09905) / [link](https://github.com/lhc1224/Cross-View-AG) | 跨视角学习可供性 + 数据集 |
| 2D Affordance | AffordanceLLM | [link](https://arxiv.org/pdf/2401.06341) | 借助 VLM/LLM 知识提升泛化 |
| 3D Affordance | Where2Act | [link](https://arxiv.org/abs/2101.02692) | 铰接物体可供性与交互点 |
| 3D Affordance | VAT-Mart | [link](https://openreview.net/pdf?id=iEx3PiooLy) | 铰接交互数据 |
| 3D Affordance | DeformableAffordance / UniGarmentManip | [link](https://arxiv.org/pdf/2303.11057) / [link](https://arxiv.org/abs/2405.06903) | 柔性物体与服装等场景 |
| 3D Affordance | SceneFun3D / 3D AffordanceNet | [link](https://scenefun3d.github.io/) / [link](https://github.com/lhc1224/Cross-View-AG) | 室内环境+实物数据与点云可供性数据集 |
**小结**:
对具身而言,CV 不只是分类/检测,而是提供可用于交互与决策的稳定表征:2D 打底,3D 提供几何约束,4D 提供跨时间一致性,而 Prompting/可供性把视觉输出变成“可执行”的中间表示。
---
## (7) Computer Graphics —— 计算机图形学(仿真、重建与可微渲染的入口)
图形学在具身中的价值通常体现在三类事情:
(1)仿真与渲染:让你低成本生成交互数据;(2)重建:把现实转成可学习的资产;(3)新型表示:如 NeRF / 3DGS 带来的可微与高效渲染,正在影响数据合成与世界建模。
| 方向 | 资源 | 链接 | 备注 |
|---|---|---|---|
| 图形学入门 | GAMES101 | [link](https://games-cn.org/intro-graphics/) | 闫令琪老师 |
| 实时渲染 | GAMES202 | [link](https://sites.cs.ucsb.edu/~lingqi/teaching/games202.html) | |
| 角色动画 | GAMES105 | [link](https://games-105.github.io/) | motion synthesis / animation |
| 三维重建 | NeRF 原理代码讲解 | [link](https://www.bilibili.com/video/BV1CC411V7oq) | |
| 三维重建 | 3DGS 原理代码讲解 | [link](https://www.bilibili.com/video/BV1zi421v7Dr) | |
| 3D 预训练综述 | 3D pre-training survey | [link](https://link.springer.com/content/pdf/10.1007/s44336-024-00007-4.pdf) | |
| 3DGS+机器人综述 | 3DGS in Robotics survey | [link](https://arxiv.org/pdf/2410.12262v2) | |
**小结**:
图形学更像“具身的数据与世界接口”:它决定了你能否把场景/资产做成可复现、可扩展、可规模化的训练资源。
---
## (8) Multimodal Models —— 多模态模型(视觉×语言×时序的统一表征)
具身系统中常见的输入是视觉(RGB/Depth/点云)与语言(目标与约束),并且往往伴随强烈的时序依赖。多模态模型的核心作用是:把这些信息压缩成一个统一表征空间,使得系统能够在“看懂 + 听懂 + 记住”的前提下做决策与控制。
| 工作/项目 | 链接 | 说明 |
|---|---|---|
| CLIP | [link](https://zhuanlan.zhihu.com/p/493489688) | 经典图文对齐工作(具身中常用作检索/对齐) |
| LLaVA | [link](https://llava-vl.github.io/) | 多模态大语言模型经典工作 |
| 多模态生成综述 | [link](https://arxiv.org/pdf/2503.04641) | |
| VLM-R1 | [link](https://github.com/om-ai-lab/VLM-R1) | OmAI Lab:R1-style 多模态强化学习(GRPO),强调比常规 SFT 更强 |
**小结**:
多模态并不是“把模态拼起来”,而是解决对齐与一致性:对齐让语言可控,一致性让跨时间的决策更稳定。
---
## (9) Robot Navigation —— 机器人导航(任务、系统与生态)
机器人导航的本质是:智能体在已知或未知环境中,根据传感器输入(RGB/Depth/GPS/IMU 等)与目标指令,输出一系列动作以到达目标。具身任务里,导航往往是更复杂操作的前置能力:先到达、再交互。
为了避免“分类太碎导致阅读成本高”,这里把导航组织为三层:**任务形态 → 系统形态 → 代表工作与数据集生态**。
### (9.1) 任务形态(你到底在导航到什么)
| 任务类型 | 简述 |
|---|---|
| 物体目标导航(Object-Goal Nav) | 输入是目标物体描述,输出到达目标物体附近的动作序列 |
| 图像目标导航(Image-Goal Nav) | 输入是一张目标图像,目标是到达与图像一致的场景位置 |
| 视觉-语言导航(VLN) | 输入是自然语言指令(路线/描述/约束),目标是按语言完成路径 |
### (9.2) 系统形态(你如何把感知变成行动)
| 系统 | 描述 | 优势 | 局限 |
|---|---|---|---|
| 端到端(E2E) | 直接从传感器输入映射到动作(RL/IL 等) | 简洁直接 | 易过拟合、泛化挑战大 |
| 模块化(Modular) | Mapping + Global Policy + Local Policy 等模块接口组合 | 可解释、工程可控 | 规则与手工设计仍限制通用性 |
| 零样本(Zero-shot) | 不训练或少训练,依赖 CLIP/LLM 等先验 | 更接近迁移到真实场景 | 推理慢、上限受限,常需再对齐 |
### (9.3) 代表工作(按系统形态组织)
> 这里的工作可以作为“入门时的 anchor”,建议先读摘要+方法图建立直觉,再决定深入方向。
展开:端到端(E2E)
| 工作 | 链接 |
|---|---|
| Learning Object Relation Graph and Tentative Policy for Visual Navigation | [link](https://arxiv.org/abs/2007.11018) |
| VTNet: Visual Transformer Network for Object Goal Navigation | [link](https://openreview.net/forum?id=DILxQP08O3B) |
展开:模块化(Modular)
| 方法/简称 | 工作 | 链接 | 备注 |
|---|---|---|---|
| SemExp | Object Goal Navigation using Goal-Oriented Semantic Exploration | [link](https://arxiv.org/abs/2007.00643) | 早期语义地图代表 |
| PONI | Potential Functions for ObjectGoal Navigation with Interaction-free Learning | [link](https://openaccess.thecvf.com/content/CVPR2022/papers/Ramakrishnan_PONI_Potential_Functions_for_ObjectGoal_Navigation_With_Interaction-Free_Learning_CVPR_2022_paper.pdf) | potential function + 语义地图预测 |
| 3D-aware | 3D-Aware Object Goal Navigation via Simultaneous Exploration and Identification | [link](https://arxiv.org/abs/2212.00338) | 引入 3D 缓解 2D 语义图信息损失 |
展开:零样本(Zero-shot)
| 工作 | 链接 | 备注 |
|---|---|---|
| CoWs on Pasture: Baselines and Benchmarks for Language-Driven Zero-Shot Object Navigation | [link](https://arxiv.org/abs/2203.10421) | 用 CLIP 找目标,找到就走过去 |
| L3MVN: Leveraging Large Language Models for Visual Target Navigation | [link](https://arxiv.org/abs/2304.05501) | LLM 决策“朝哪走” |
| ESC: Exploration with Soft Commonsense Constraints for Zero-shot Object Navigation | [link](https://arxiv.org/abs/2301.13166) | 语义地图 + 常识约束 |
| SG-Nav: Online 3D Scene Graph Prompting for LLM-based Zero-shot Object Navigation | [link](https://arxiv.org/abs/2410.08189) | 在线构建场景图喂给 LLM |
### (9.4) 数据集与仿真生态(决定你能跑什么实验)
| 数据集/平台 | 链接 | 备注 |
|---|---|---|
| Matterport3D(MP3D) | [link](https://niessner.github.io/Matterport/) | 真实场景采集,规模大、难度高 |
| Habitat-Matterport3D(HM3D) | [link](https://aihabitat.org/datasets/hm3d/) | Habitat 生态核心数据 |
| RoboTHOR | [link](https://ai2thor.allenai.org/robothor/) | 场景较小,仿真更轻量 |
| AI2-THOR | [link](https://ai2thor.allenai.org/) | 与 RoboTHOR 同系,交互生态强 |
| Gibson / iGibson | (可补链接) | 室内仿真常用,含交互任务生态 |
| VLN 常用:R2R / RxR / CVDN | (可补链接) | 偏语言导航方向的数据集 |
> 注:如果你希望这里“完全自洽且可点击”,我也可以把 Gibson/iGibson 与 R2R/RxR/CVDN 的链接补齐并统一格式。
### (9.5) 其他参考(进一步扩展)
| 资源 | 链接 |
|---|---|
| Object-Goal Navigation 综述 | [link](https://orca.cardiff.ac.uk/id/eprint/167432/1/ObjectGoalNavigationSurveyTASE.pdf) |
| Awesome VLN | [link](https://github.com/eric-ai-lab/awesome-vision-language-navigation) |
| Habitat Navigation Challenge | [link](https://github.com/facebookresearch/habitat-challenge) |
**小结**:
导航方向最重要的分歧不在“用什么网络”,而在系统形态:端到端追求简洁但容易过拟合,模块化更可控但偏工程,零样本更易迁移但速度与上限受限。做项目时建议先选定评估平台与数据集生态,再决定模型路线,否则很容易在实现层面被卡住。
## (10) Embodied AI for X - 具身智能+X
### (10.1) EAI for Healthcare - 具身医疗
> 具身智能技术的迅猛发展正在引领医疗服务模式迈向革命性的新纪元。作为人工智能算法、先进机器人技术与生物医学深度融合的前沿交叉学科, 具身智能+医疗这一研究领域不仅突破了传统医疗的边界, 更开创了智能化医疗的新范式。其多学科协同创新的特质, 正在重塑医疗服务的全流程, 为精准医疗、远程诊疗和个性化健康管理带来前所未有的发展机遇, 推动医疗行业向更智能、更人性化的方向转型升级。这一领域的突破性进展, 标志着医疗科技正迈向一个全新的智能化时代。
| 综述 | 链接 |
|---|---|
| 医疗具身智能综述 | [link](https://arxiv.org/abs/2501.07468) |
#### (10.1.1) MLLM for Medical - 多模态大语言模型在医学中的应用
| 资源 | 链接 |
|---|---|
| 用于医学影像分析的通用人工智能综述 | [link](https://arxiv.org/pdf/2306.05480) |
| 医学影像的通用分割模型-MedSAM | [link](https://www.nature.com/articles/s41467-024-44824-z.pdf) |
| 2024盘点:医学AI大模型, 从通用视觉到医疗影像 | [link](https://mp.weixin.qq.com/s?__biz=MzIxNTc4NzU0MQ==&mid=2247550230&idx=1&sn=6baa8dcba12f3f70f4c8205a0f23b6a0&chksm=966df4ca45c8cbcaa0a5d2e42fbb4de92e6881f92981071ce7fda3bd1e13e4715f92415a9258&scene=27) |
| 医疗领域基础模型的发展机遇与挑战 | [link](https://arxiv.org/pdf/2404.03264) |
| SkinGPT-4 for dermatological diagnosis | [link](https://www.nature.com/articles/s41467-024-50043-3) |
| PneumoLLM for pneumoconiosis diagnosis | [link](https://www.sciencedirect.com/science/article/abs/pii/S1361841524001737) |
| BiomedGPT | [link](https://github.com/taokz/BiomedGPT) |
| LLaVA-Med | [link](https://github.com/microsoft/LLaVA-Med?tab=readme-ov-file) |
| RoboNurse-VLA | [link](https://robonurse-vla.github.io) |
| PathChat | [link](https://www.nature.com/articles/s41586-024-07618-3) |
| DeepDR-LLM | [link](https://www.nature.com/articles/s41591-024-03139-8) |
| VisionFM | [link](https://ai.nejm.org/doi/full/10.1056/AIoa2300221) |
| Medical-CXR-VQA | [link](https://github.com/Holipori/Medical-CXR-VQA) |
#### (10.1.2) Medical Robotics - 医疗机器人
| 主题 | 资源 | 链接 |
|---|---|---|
| 五级自动化 | Medical robotics—Regulatory, ethical, and legal considerations for increasing levels of autonomy | [link](https://www.science.org/doi/pdf/10.1126/scirobotics.aam8638) |
| 十年回顾 | A decade retrospective of medical robotics research from 2010 to 2020 | [link](https://www.science.org/doi/epdf/10.1126/scirobotics.abi8017) |
| 医疗具身智能分级 | A Survey of Embodied AI in Healthcare: Techniques, Applications, and Opportunities | [link](https://arxiv.org/pdf/2501.07468) |
| AI meets medical robotics | Artificial intelligence meets medical robotics | [link](https://www.science.org/doi/abs/10.1126/science.adj3312) |
| 机器人手术综述 | Robotic surgery (Nature Reviews Bioengineering) | [link](https://www.nature.com/articles/s44222-025-00294-6) |
**医疗机器人的机器视觉**
| 资源 | 链接 |
|---|---|
| 3DGS在腔镜手术中的应用综述 | [link](https://arxiv.org/pdf/2408.04426) |
| LVM在手术机器人上的综述(CUHK任洪亮团队) | [link](https://www.nature.com/articles/s44287-025-00166-6) |
**达芬奇相关**
| 资源 | 链接 |
|---|---|
| dVRK介绍 | [link](https://ieeexplore.ieee.org/abstract/document/9531355) |
| Surgical Robot Transformer (SRT) | [link](https://surgical-robot-transformer.github.io/) |
**Domain-specific Simulators(手术机器人技能学习模拟器)**
| 模拟器 | 链接 |
|---|---|
| SurRoL | [link](https://med-air.github.io/SurRoL/) |
| Surgical Gym | [link](https://github.com/SamuelSchmidgall/SurgicalGym) |
| ORBIT-Surgical | [link](https://orbit-surgical.github.io/) |
| 自主缝合综述 | [link](https://link.springer.com/article/10.1007/s00464-024-10788-w) |
**连续体与软体手术机器人**
| 资源 | 链接 |
|---|---|
| Continuum Robots for Medical Interventions | [link](https://ieeexplore.ieee.org/abstract/document/9707607) |
| Soft Robot-Assisted Minimally Invasive Surgery and Interventions: Advances and Outlook | [link](https://ieeexplore.ieee.org/abstract/document/9765966/authors#authors) |
| 血管介入手术机器人具身智能综述 | [link](https://arxiv.org/abs/2504.15327) |
| 什么是软体机器人?软体机器人的具身智能定义 | [link](https://www.zhihu.com/question/61637360/answer/92834447300?utm_psn=1870238291607040000) |
| Learning-Based Control Strategies for Soft Robots: Theory, Achievements, and Future Challenges | [link](https://ieeexplore.ieee.org/abstract/document/10136428) |
| A concise guide to modelling the physics of embodied intelligence in soft robotics | [link](https://inria.hal.science/hal-03921606/document) |
| Data-driven methods applied to soft robot modeling and control: A review | [link](https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=10477253) |
**微纳机器人**
| 资源 | 链接 |
|---|---|
| Machine learning for micro- and nanorobots | [link](https://www.nature.com/articles/s42256-024-00859-x) |
---
### (10.2) UAV —— 无人机(技能、任务与本体)
无人机研究大体可以用“三条主线”来理解:
**技能(Skill)**:避障、竞速、敏捷飞行/特技等,强调高速闭环与安全约束;
**任务(Task)**:探索、重建、跟踪/追捕等,强调长时规划与不确定环境;
**本体(Platform)**:飞行器构型与载荷(例如空中机械臂、全驱动、多模态等),决定了可执行的动作空间与任务边界。
实际系统里三者往往是耦合的:任务提出约束,技能保证可执行,本体决定上限。
#### (10.2.1) 技能实现/学习(Skill Learning)
无人机技能学习的瓶颈通常不是“有没有算法”,而是**闭环速度、仿真可用性、sim2real 稳定性**。因此这里先列出更贴近 RL/学习的仿真器与工程链路,再给代表工作做索引。
| 类别 | 仿真/链路 | 链接 | 备注 |
|---|---|---|---|
| 学习仿真 | AirSim | [link](https://microsoft.github.io/AirSim/) | UE4;生态成熟但运行偏慢 |
| 学习仿真 | Flightmare | [link](https://github.com/uzh-rpg/flightmare) | Unity 渲染;CPU 并行动力学 |
| 学习仿真 | AerialGym | [link](https://github.com/ntnu-arl/aerial_gym_simulator) | IsaacSim;GPU 并行动力学 |
| 轻量生态 | gym-pybullet-drones | (建议补链接) | 轻量、研究/教学常用 |
| 工程链路 | PX4 SITL / ROS2 | (建议补链接) | 更贴近真实系统部署与接口 |
展开:经典技能代表工作(按主题归类)
**未知场景障碍物躲避 / 反应式控制**
| 工作 | 链接 | 备注 |
|---|---|---|
| Learning Monocular Reactive UAV Control in Cluttered Natural Environments (ICRA 2013, CMU) | | 监督学习:图像 → 离散控制指令 |
| CAD2RL: Real Single-Image Flight without a Single Real Image (RSS 2017, UCB) | | sim2real RL + domain randomization |
| DroNet: Learning to Fly by Driving (RAL 2018, UZH) | [link](https://github.com/uzh-rpg/rpg_public_dronet) | 输出速度指令 |
| Learning High-Speed Flight in the Wild (SciRob 2021, UZH) | [link](https://github.com/uzh-rpg/agile_autonomy) | dagger + 传统轨迹规划监督 |
| Back to Newton's Laws… Differentiable Physics (Arxiv 2024, SJTU) | | 可微物理辅助策略优化 |
| Flying on Point Clouds using RL (Arxiv 2025, ZJU) | [link](https://arxiv.org/abs/2503.00496) | 机载雷达 + sim2real RL |
**无人机竞速(高速度、高精度、高风险约束)**
| 工作 | 链接 | 备注 |
|---|---|---|
| Champion-level drone racing using deep RL (Nature 2023, UZH) | | RL 战胜人类冠军 |
| Optimal Control vs RL in Racing (SciRob 2023, UZH) | | RL 与最优控制对比 |
| Agile Flight from Pixels w/o State Estimation (RSS 2024, UZH) | | 视觉端到端,不依赖显式状态估计 |
**大机动 / 特技飞行(敏捷性与可控性)**
| 工作 | 链接 | 备注 |
|---|---|---|
| Deep Drone Acrobatics (RSS 2020, UZH) | | 模仿学习 + MPC 轨迹跟踪 |
| Whole-Body Control Through Narrow Gaps (ICRA 2025, ZJU) | [link](https://arxiv.org/abs/2409.00895) | 端到端窄缝穿越 |
**小结**:
技能学习的主矛盾通常是“闭环工程问题”:仿真速度、传感器噪声、延迟与 sim2real。选平台时建议先明确你需要的是 **快速迭代(轻量)** 还是 **高保真+可部署(PX4/ROS 链路)**。
---
#### (10.2.2) 任务实现/学习(Task Learning)
任务层比技能层更强调:**长时规划、部分可观测、目标不确定与多机协作**。很多工作会把“任务规划”交给上层策略,把“飞行稳定”交给下层控制/技能模块。
展开:经典任务代表工作(探索/追捕等)
| 任务 | 工作 | 链接 |
|---|---|---|
| 追捕/协作 | HOLA-Drone: Hypergraphic Open-ended Learning for Zero-Shot Multi-Drone Cooperative Pursuit (Arxiv 2024, Manchester) | |
| 追捕/规划 | Multi-UAV Pursuit-Evasion with Online Planning… (Arxiv 2024, THU) | |
| 探索 | Deep RL-based Large-scale Robot Exploration (RAL 2024, NUS) | |
| 探索 | ARiADNE: … Exploration (ICRA 2023, NUS) | |
| 探索 | DARE: Diffusion Policy for Autonomous Robot Exploration (ICRA 2025, NUS) | |
---
#### (10.2.3) 无人机硬件平台搭建
| 教程 | 链接 |
|---|---|
| 从 0 制作自主空中机器人 | [link](https://www.bilibili.com/video/BV1WZ4y167me) |
---
#### (10.2.4) 新构型无人机设计
这一部分更偏“具身本体学”:通过构型改变动作空间,使无人机从“移动平台”变成“可交互平台”。
**空中机械臂(Aerial Manipulator)**
| 资源/工作 | 链接 | 备注 |
|---|---|---|
| 空中作业机器人,下一代无人机技术? | [link](https://zhuanlan.zhihu.com/p/442331197) | |
| Past, Present, and Future of Aerial Robotic Manipulators (TRO 2022) | [link](https://ieeexplore.ieee.org/document/9462539) | 综述 |
| Millimeter-Level Pick and Peg-in-Hole by Aerial Manipulator (TRO 2023) | [link](https://ieeexplore.ieee.org/abstract/document/10339889) | |
| NDOB-Based Control of a UAV with Delta-Arm… (ICRA 2025) | [link](https://arxiv.org/abs/2501.06122) | |
| A Compact Aerial Manipulator… (JIRS 2024) | [link](https://link.springer.com/article/10.1007/s10846-024-02090-7) | |
**全驱动无人机(Fully-Actuated UAV)**
| 工作 | 链接 | 备注 |
|---|---|---|
| Fully Actuated Multirotor UAVs: A Literature Review (RAM 2020) | [link](https://ieeexplore.ieee.org/document/8978486/?arnumber=8978486) | 综述 |
| Omni-directional aerial vehicle (ICRA 2016, ETH) | [link](https://ieeexplore.ieee.org/document/7487497) | |
| Voliro omniorientational hexacopter (RAM 2018, ETH) | [link](https://ieeexplore.ieee.org/document/8485627) | |
| FLOAT Drone (Arxiv 2025, ZJU) | [link](https://arxiv.org/abs/2503.00785) | |
**可变形无人机(Deformable UAV)**
| 工作 | 链接 |
|---|---|
| DRAGON (RAL 2018) | [link](https://ieeexplore.ieee.org/document/8258850) |
| The Foldable Drone (RAL 2019) | [link](https://ieeexplore.ieee.org/document/8567932?arnumber=8567932) |
| Ring-Rotor (RAL 2023) | [link](https://ieeexplore.ieee.org/document/10044964) |
| Passively Morphing Quadcopter (ICRA 2019) | [link](https://ieeexplore.ieee.org/document/8794373) |
**多模态无人机(Terrestrial-Aerial / Multi-Modal)**
| 工作 | 链接 |
|---|---|
| A bipedal walking robot that can fly… (SciRob 2021, Caltech) | [link](https://www.science.org/doi/10.1126/scirobotics.abf8136) |
| Morphobot (NC 2023) | [link](https://www.nature.com/articles/s41467-023-39018-y) |
| Skater (RAL 2024, ZJU) | [link](https://ieeexplore.ieee.org/document/10538378) |
| Terrestrial-Aerial Bimodal Vehicles Navigation (RAL 2022, ZJU) | [link](https://ieeexplore.ieee.org/document/9691888) |
**小结**:
如果你关注“具身交互”,新构型往往比换算法更有效:空中机械臂解决“能不能操作”,全驱动解决“姿态与力控自由度”,可变形解决“通过性与安全”,多模态解决“跨地形任务连续性”。
---
### (10.3) Autonomous Driving —— 自动驾驶
自动驾驶和具身操作类似,本质是“在复杂开放世界中闭环决策”。但它的研究与工程路线经常可以归纳成两大块:
**世界模型(World / Simulation)**:如何表示、重建并可控生成驾驶世界(用于仿真、数据增广、评测与训练);
**策略系统(Policy)**:从模块化到端到端,并出现越来越多“快慢系统”范式(快系统高频安全控制,慢系统语义理解与规划)。
#### (10.3.1) World / Simulation:重建 + 可控生成
| 主题 | 资源/工作 | 链接 | 备注 |
|---|---|---|---|
| 生成式仿真(概念) | 生成式仿真为具身智能释放无限灵感 | [link](https://bydrug.pharmcube.com/news/detail/80b67b2227879864af934e5f81835776) | |
**3D/4D 场景重建**
| 工作 | 链接 | 备注 |
|---|---|---|
| NSG | [link](https://github.com/princeton-computational-imaging/neural-scene-graphs) / [link](https://arxiv.org/abs/2011.10379) | CVPR 2021 |
| MARS | [link](https://open-air-sun.github.io/mars/) / [link](https://arxiv.org/abs/2307.15058) | |
| StreetGaussians | [link](https://github.com/zju3dv/street_gaussians) / [link](https://arxiv.org/abs/2401.01339) | |
| OmniRe | [link](https://ziyc.github.io/omnire) / [link](https://github.com/ziyc/drivestudio) / [link](https://arxiv.org/abs/2408.16760) | ICLR 2025 Spotlight |
**场景可控生成 / 世界模型**
| 工作 | 链接 | 备注 |
|---|---|---|
| GAIA-1 | [link](https://wayve.ai/thinking/introducing-gaia1/) / [link](https://arxiv.org/abs/2309.17080) | |
| GenAD(OpenDV) | [link](https://github.com/OpenDriveLab/DriveAGI?tab=readme-ov-file#opendv) / [link](https://arxiv.org/abs/2403.09630) | CVPR 2024 Highlight |
| Vista | [link](https://opendrivelab.com/Vista) / [link](https://github.com/OpenDriveLab/Vista) / [link](https://arxiv.org/abs/2405.17398) | NeurIPS 2025 |
| SCP-Diff | [link](https://air-discover.github.io/SCP-Diff/) / [link](https://github.com/AIR-DISCOVER/SCP-Diff-Toolkit) / [link](https://arxiv.org/abs/2403.09638) | |
| MagicDrive → MagicDriveDiT | [link](https://gaoruiyuan.com/magicdrive-v2/) / [link](https://arxiv.org/abs/2411.13807) | |
| UniScene | [link](https://arlo0o.github.io/uniscene/) / [link](https://arxiv.org/abs/2412.05435) | CVPR 2025 |
| VaVAM | [link](https://github.com/valeoai/VideoActionModel) | |
**生态补充**
| 仿真/数据生态 | 链接 | 说明 |
|---|---|---|
| CARLA | (建议补链接) | 自动驾驶仿真常用 |
| nuScenes / Waymo Open / Argoverse 2 | (建议补链接) | 数据与评测生态(决定可复现实验) |
**小结**:
世界模型路线的关键不是“生成得像不像”,而是“能不能被策略有效利用”:可控性、可评测性、覆盖长尾场景,往往比视觉质量更关键。
---
#### (10.3.2) Policy:从模块化到端到端,再到快慢系统
| 主题 | 资源 | 链接 |
|---|---|---|
| 模块化到端到端 | End-to-end Autonomous Driving: Challenges and Frontiers | [link](https://arxiv.org/pdf/2306.16927) |
| 快慢系统并行(观点) | 理想端到端-VLM双系统 | [link](https://www.sohu.com/a/801987742_258768) |
为了便于“选路线”,这里把代表工作按快/慢系统拆开:
快系统通常强调高频闭环(检测、占用、轨迹与控制),慢系统强调语义理解、解释与规划(往往更接近 VLM/LLM)。
**快系统代表作**
| 工作 | 链接 | 备注 |
|---|---|---|
| UniAD | [link](https://github.com/OpenDriveLab/UniAD) / [link](https://arxiv.org/abs/2212.10156) | CVPR 2023 Best Paper |
| VAD | [link](https://github.com/hustvl/VAD) / [link](https://arxiv.org/abs/2303.12077) | ICCV 2023 |
| SparseDrive | [link](https://github.com/swc-17/SparseDrive) / [link](https://arxiv.org/abs/2405.19620) | |
| DiffusionDrive | [link](https://github.com/hustvl/DiffusionDrive) / [link](https://arxiv.org/abs/2411.15139) | CVPR 2025 |
| Scale-up 特性探究 | [link](https://arxiv.org/pdf/2412.02689) | |
**慢系统代表作**
| 工作 | 链接 | 备注 |
|---|---|---|
| DriveVLM | [link](https://arxiv.org/abs/2402.12289) | CoRL 2024 |
| EMMA | [link](https://arxiv.org/abs/2410.23262) | |
| Open-EMMA | [link](https://github.com/taco-group/OpenEMMA) | 开源实现 |
**小结**:
自动驾驶策略的发展越来越像具身操作:快系统保证稳定与安全,慢系统提供语义理解与长时规划。做研究时建议先固定评测生态(数据/仿真/指标),再讨论模型形态,否则很难做可复现对比。
---
#### (10.3.3) 未来方向
| 资源 | 链接 |
|---|---|
| AIR ApolloFM 技术全解读 | [link](https://air.tsinghua.edu.cn/info/1007/2258.htm) |
================================================
FILE: topics/control.md
================================================
Embodied-AI-Guide
控制篇
> 这一章并不是为了让你“立刻跑一个模型”,而是为具身智能系统提供**稳定性、可解释性与工程底座**。控制论保证系统在高频下不崩溃,机器人学提供几何与动力学约束,SLAM 与状态估计让机器人“知道自己在哪里”,ROS 与工程库则把理论变成可复现的系统。
## (1) Control and Robotics —— 控制论与机器人学基础
这一章覆盖的是具身智能中**最底层、也最容易被跳过的能力层**。
控制与机器人学本身并不会直接提高 benchmark 分数,但它们决定了系统是否**稳定、可解释、可调试、可部署**。如果说算法篇解决的是“我想让机器人做什么”,那么这一章回答的是:机器人**凭什么**能连续、安全、可控地做到。
---
### (1.1) 经典课程
推荐把学习路线收敛到两门课程即可,其它材料作为补充参考:
- **Modern Robotics(Northwestern)**:[link](https://www.bilibili.com/video/BV1GJ411k7fE)
系统覆盖坐标系、自由度、FK/IK、旋量与运动学,是机器人学入门的首选。
- **Advanced Robotics(Berkeley, Abbeel)**:[link](https://www.bilibili.com/video/BV1h7411A7B9)
从控制、规划到 RL / IL / Sim2Real,强调真实系统与决策问题。
> 推荐顺序:**Modern Robotics → Advanced Robotics**
> 前者解决“机器人是什么”,后者解决“机器人如何在真实世界中做决策”。
---
## (2) 控制理论基础(Control Foundations)
控制论的目标不是“聪明”,而是**稳定、可预测与可调试**。
在具身系统中,学习策略通常建立在控制系统之上:控制负责高频稳定,学习负责复杂决策。
### (2.1) 经典控制(Classical Control)
这一部分帮助你建立对“反馈系统”的直觉:系统建模、反馈回路、时域与频域分析、传递函数,以及前馈与反馈的区别。
**PID 控制是必须掌握的最低配工具**:
原理直觉:[link](https://blog.csdn.net/name_longming/article/details/115093338),视频讲解:[link](https://www.bilibili.com/video/BV1B54y1V7hp)。
在真实机器人调试中,PID 往往是你**第一个、也是最常用的工具**。
---
### (2.2) 现代控制(线性系统与最优控制)
现代控制将问题表述为优化问题,关注系统的整体行为而非单一参数调节。核心包括状态空间模型、状态反馈以及最优控制(如 LQR)。
推荐材料包括:
Modern Control Systems(Bishop & Dorf):[link](http://103.203.175.90:81/fdScript/RootOfEBooks/E%20Book%20collection%20-%202024/EEE/Modern_control_systems_Robert_H_Bishop_Richard_C_Dorf_z_lib_org.pdf),
LQR 直观讲解:[link](https://www.bilibili.com/video/BV1Ng4y1V7JQ),
以及 **CMU 16-745 Optimal Control**(非常推荐):
Website:[link](https://optimalcontrol.ri.cmu.edu/),YouTube:[link](https://www.youtube.com/playlist?list=PLZnJoM76RM6IAJfMXd1PgGNXn3dxhkVgI),Bilibili:[link](https://space.bilibili.com/504273533/lists/6271656?type=season)。
---
### (2.3) 先进控制(Advanced Control)
在操作与交互任务中,以下方法尤为关键:鲁棒控制(应对模型不准)、阻抗/导纳/力位混合控制([link](https://blog.csdn.net/a735148617/article/details/108564836))、模型预测控制(MPC)以及基于学习的控制方法。
> 在真实系统中,**力控 + MPC + 学习策略** 是非常常见且实用的组合。
---
## (3) 机器人学导论(Robotics Foundations)
机器人学解决的是“**几何 + 物理 + 结构**”问题,是控制与感知能够落地的前提。
### (3.1) 推荐教材与材料
核心课程与教材包括:
现代机器人学课程:[link](https://www.youtube.com/watch?v=29LhXWjn7Pc&list=PLggLP4f-rq02vX0OQQ5vrCxbJrzamYDfx),
以及《现代机器人学:机构、规划与控制》(Kevin Lynch)、《机构学与机器人学的几何基础与旋量代数》(戴建生)、《机器人学的现代数学理论基础》(丁希仑)。
---
### (3.2) 运动学与动力学(Kinematics & Dynamics)
运动学关注“能不能到达”,动力学关注“能不能稳住、能不能用力”。
快速建立直觉可参考:
IK/FK 直觉视频:[link](https://www.bilibili.com/video/BV18E411v7F9),原理概览:[link](https://blog.csdn.net/Dwzsa/article/details/142386529)。
系统学习可参考:
IK 视频:[link](https://www.bilibili.com/video/BV1PD4y1t7xP)、[link](https://www.bilibili.com/video/BV1Tt4y1T79Z),
FK 视频:[link](https://www.bilibili.com/video/BV1Ve4y127Uf)、[link](https://www.bilibili.com/video/BV1a14y157uL),
IK 理论参考:[link](https://motion.cs.illinois.edu/RoboticSystems/InverseKinematics.html)。
动力学中尤其重要的是斜对称矩阵、Twist、Exponential of Twist 与旋量代数——操作机器人、力控、MPC 与 whole-body control 都离不开这些概念。
---
### (3.3) 里程计与 SLAM(State Estimation)
状态估计决定了机器人是否“知道自己在哪里”。
常见方法基于 EKF 或优化,融合 IMU、相机、雷达、轮速计等传感器,形成 VIO / LIO / LIVO 等体系。
代表系统包括:
VINS-Mono:[link](https://github.com/HKUST-Aerial-Robotics/VINS-Mono),ORB-SLAM3:[link](https://github.com/UZ-SLAMLab/ORB_SLAM3),VINS-Fusion:[link](https://github.com/HKUST-Aerial-Robotics/VINS-Fusion),LOAM:[link](https://www.ri.cmu.edu/pub_files/2014/7/Ji_LidarMapping_RSS2014_v8.pdf),FAST-LIO:[link](https://github.com/hku-mars/FAST_LIO),FAST-LIVO:[link](https://github.com/hku-mars/FAST-LIVO2)。
SLAM 进一步将定位与建图结合,推荐参考:
SLAM Handbook:[link](https://github.com/SLAM-Handbook-contributors/slam-handbook-public-release),经典综述:[link](https://arxiv.org/abs/1606.05830),《视觉 SLAM 十四讲》:[link](https://github.com/gaoxiang12/slambook2),以及端到端方法 DROID-SLAM:[link](https://arxiv.org/abs/2108.10869)。
---
### (3.4) 工程生态与工具(Engineering Stack)
ROS 是把理论变成系统的关键纽带:
ROS1 入门:[link](http://www.autolabor.com.cn/book/ROSTutorials/),ROS2 入门:[link](https://zhangzhiwei-zzw.github.io/ROS2%E5%AD%A6%E4%B9%A0/ROS2/),ROS2 Humble 3h 教程:[link](https://discourse.openrobotics.org/t/ros2-humble-3h-tutorial-for-beginners/28500/),Open Robotics 官网:[link](https://openrobotics.org/)。
常用机器人库包括:
cuRobo(CUDA 加速 IK / 碰撞 / 规划):[link](https://curobo.org/),
IKFast:[link](https://moveit.github.io/moveit_tutorials/doc/ikfast/ikfast_tutorial.html),
mplib:[link](https://github.com/haosulab/mplib)。
其他工程细节如多传感器时间同步:[link](https://blog.csdn.net/qq_43495930/article/details/125649446),以及 LeRobot SO-100 实践:[link](https://huggingface.co/lerobot)。
================================================
FILE: topics/hardware.md
================================================
Embodied-AI-Guide
硬件篇
> 具身智能硬件涵盖多个技术栈:嵌入式软硬件、机械设计、机器人系统集成与传感器等。它们知识面很杂,但共同目标只有一个:把“算法”变成真实世界里稳定可复现的系统。
> 关于硬件学习,最有效的方式几乎永远是 **从实践出发**:先做出一个能跑起来的最小系统,再逐步扩展复杂度与可靠性。
## (1) Embedded —— 嵌入式
嵌入式决定了机器人“神经系统”的下限:通信是否稳定、控制是否实时、驱动是否安全。建议按 **入门单片机 → STM32 工程 → 电机驱动 → 嵌入式 Linux** 的顺序推进。
| 路线/主题 | 资源 | 链接 | 说明 |
|---|---|---|---|
| 总览路线 | 嵌入式学习路线 | [link](https://blog.csdn.net/wangshuaiwsws95/article/details/107830452) | 用于建立学习路径与关键词地图 |
| 入门 | 51 单片机 | [link](https://www.bilibili.com/video/BV1Mb411e7re) | 江科大自动协经典入门 |
| 主流工程 | STM32 单片机 | [link](https://www.bilibili.com/video/BV1th411z7sn) | 从外设到工程结构 |
| 驱动关键 | STM32 电机驱动(野火) | [link](https://www.bilibili.com/video/BV1AZ4y1V7wt) | 控制闭环常见落点 |
| 工程体系 | 野火 STM32 标准库 | [link](https://www.bilibili.com/video/BV1yW411Y7Gw) | 更贴近工程写法 |
| 工程体系 | 正点原子 STM32 | [link](https://www.bilibili.com/video/BV1Lx411Z7Qa) | 资料全,适合查漏补缺 |
| 上位平台 | 韦东山嵌入式 Linux | [link](https://www.bilibili.com/video/BV1w4411B7a4) | 走向系统级开发与部署 |
**小结**:
做具身硬件时,嵌入式的价值不在“写出更炫的代码”,而在“系统能稳定跑、延迟可控、驱动可靠”。很多项目后期的崩溃都不是算法问题,而是控制链路与工程细节问题。
---
## (2) Mechanical Design —— 机械设计
机械设计决定了机器人“身体”的能力边界:可达空间、刚度、负载、布线与维护成本等。对于算法同学来说,机械最关键的产出通常是 **可制造的 CAD** 与 **可用于仿真/控制的 URDF**。
| 主题 | 资源 | 链接 | 说明 |
|---|---|---|---|
| CAD 入门 | SolidWorks 教学 | [link](https://www.bilibili.com/video/BV1iw411Z7HZ) | 面向装配体与工程制图 |
| 工程衔接 | 从 SolidWorks 生成 URDF | [link](https://blog.csdn.net/weixin_45168199/article/details/105755388) | 用装配体导出机器人模型并进入仿真/控制 |
---
## (3) Robot System Design —— 机器人系统设计
系统设计关注的是“把多个模块拼成一个可维护系统”:硬件接口、软件架构、标定流程、调试策略、日志与安全机制。建议把系统设计当作“把机器人做成产品”的第一步。
| 资源 | 链接 | 说明 |
|---|---|---|
| 《机器人学简介》(教材 PDF) | [link](./files/%E6%9C%BA%E5%99%A8%E4%BA%BA%E5%AD%A6%E7%AE%80%E4%BB%8B.pdf) | 质量高,适合系统性阅读 |
| Robotic Systems(Illinois) | [link](https://motion.cs.illinois.edu/RoboticSystems/) | 偏“系统化机器人学”的组织方式 |
---
## (4) Sensors —— 传感器
具身系统里常见传感器包括相机、深度相机、IMU、力/力矩、触觉等。建议从“能直接用于闭环”的传感器开始(相机/深度/IMU),再逐步引入触觉等高难度模态。
### (4.1) 深度相机(Depth Camera)
| 设备/生态 | 链接 | 说明 |
|---|---|---|
| RealSense + ROS | [link](https://github.com/IntelRealSense/realsense-ros/tree/ros1-legacy) | 工程中常见深度相机生态 |
---
## (5) Tactile Sensing —— 触觉感知(接触、力与精细操作)
触觉是“接触世界”的关键模态,尤其在装配、柔性物体、精细抓取和遮挡严重的场景中,触觉往往比视觉更可靠。整体上触觉硬件路线常见两类:**视触觉(Vision-based tactile)** 与 **电子皮肤(E-skin)**。
### (5.1) 视触觉传感器(Vision-Based Tactile Sensors)
视触觉通过摄像头观测弹性介质/标记点的形变,把“触觉”转化为视觉信号来估计接触力、形变与接触几何。它的关键设计点通常包括:传感器形状、标记点布局、材料(硅胶/弹性体)以及光照与成像系统。
- 优点:高分辨率、非侵入、易与视觉系统融合
- 缺点:依赖视觉计算、易受光照影响、光学与封装设计复杂
两篇综述覆盖“算法视角”和“结构视角”,建议作为起点:
算法综述:[link](https://ieeexplore.ieee.org/document/10563188)
结构综述:[link](https://link.springer.com/article/10.1007/s10846-021-01431-0)
### (5.2) 电子皮肤(Electronic Skin)
电子皮肤通常用柔性材料(压力薄膜、纳米传感网络等)实现大面积触觉,目标是让机器人拥有类似“全身触觉”的能力,用于安全、人机协作与全身接触交互。
- 优点:可大面积覆盖、高灵敏度、可伸缩适配复杂表面
- 缺点:制造与成本较高、数据规模大带来处理挑战、长期稳定性与漂移问题
综述入口:[link](https://pubs.acs.org/doi/10.1021/acs.chemrev.4c00049)
### (5.3) 触觉应用与算法(把触觉变成能力)
触觉算法常见落点可以理解为四类:**姿态/接触估计、识别与分类、触觉操控技能、统一表征/大模型**。
| 方向 | 代表工作 | 链接 |
|---|---|---|
| 姿态/接触估计(in-hand) | 3D Shape Perception from Monocular Vision, Touch, and Shape Priors | [link](https://arxiv.org/abs/1808.03247) |
| 姿态/接触估计(in-scene) | Fast Model-Based Contact Patch and Pose Estimation… | [link](https://ieeexplore.ieee.org/document/8936859) |
| 分类/识别 | Understanding Dynamic Tactile Sensing for Liquid Property Estimation | [link](https://arxiv.org/abs/2205.08771) |
| 分类/识别 | Multimode Fusion Perception for Transparent Glass Recognition | [link](https://www.semanticscholar.org/paper/Multimode-fusion-perception-for-transparent-glass-Zhang-Shan/90109f2eabba717d152a599fc8d8d5a3677c85e5) |
| 触觉操控(装配) | Active Extrinsic Contact Sensing: Peg-in-Hole Insertion | [link](https://ieeexplore.ieee.org/abstract/document/9812017) |
| 触觉操控(技能库) | Building a Library of Tactile Skills Based on Fingervision | [link](https://ieeexplore.ieee.org/abstract/document/9035000) |
| 触觉操控(线缆) | Cable Manipulation with a Tactile-Reactive Gripper | [link](https://arxiv.org/abs/1910.02860) |
| 触觉操控(精细手部) | Manipulation by Feel: Touch-Based Control with Deep Predictive Models | [link](https://arxiv.org/abs/1903.04128) |
| 触觉操控(visuotactile) | NeuralFeels with Neural Fields… | [link](https://www.science.org/doi/10.1126/scirobotics.adl0628) |
| 触觉大模型/统一表征 | Binding Touch to Everything… (CVPR 2024) | [link](https://openaccess.thecvf.com/content/CVPR2024/papers/Yang_Binding_Touch_to_Everything_Learning_Unified_Multimodal_Tactile_Representations_CVPR_2024_paper.pdf) |
### (5.4) 传感器购买(从研究到落地)
市面上已有成熟视触觉传感器产品,例如 GelSight:[link](https://gelsight.com/)
---
## (6) Data Collection —— 数据采集硬件
| 采集范式 | 代表系统 / 资源 | 链接 | 动机与特点 |
| ----------------------------- | ------------------------ | ----------------------------------------------------------------------------------------------- | -------------------------------------------------------------------------------- |
| 双臂遥操作(Teleoperation) | ALOHA | [video](https://www.bilibili.com/video/BV1vU421d7BJ/?spm_id_from=333.337.search-card.all.click) | 通过主从机械臂映射,直接采集**高精度 action + 多视角观测**,动机是为复杂 manipulation(双臂、装配、工具)提供可直接用于控制学习的数据 |
| 第一人称数据(Ego-centric Video) | Ego-centric Manipulation | — | 放弃精确动作标注,换取**低成本与大规模**,主要动机是学习人类操作的视觉先验与高层行为结构 |
| 可穿戴示教(Wearable / Retargeting) | UMI | [video](https://www.bilibili.com/video/BV17w4m1f7Ti/?spm_id_from=333.337.search-card.all.click) | 直接利用人体动作进行示教,强调**示教效率与自然性**,需要额外的动作映射(retargeting) |
| 数据采集手套(Data Gloves) | 手部动作采集 | [Zhihu](https://zhuanlan.zhihu.com/p/635065768) | 面向灵巧手与精细操作,动机是**缩小人手与机器人手之间的表示差距**,常用于 in-hand manipulation |
## (7) Companies —— 公司与硬件生态
| 公司 | 主营产品 | Others |
|---|---|---|
| [松灵 AgileX](https://www.agilex.ai/) | [pipper 六轴机械臂](https://www.agilex.ai/chassis/16)
[PIKA 数采方案](https://www.agilex.ai/chassis/22)
[Cobot Magic 双臂遥操作平台](https://www.agilex.ai/chassis/27)
移动底盘 | 面向教育科研 |
| [宇树 Unitree](https://www.unitree.com/cn) | [四足机器人开发指南](https://www.yuque.com/ironfatty/nly1un/luo9gb)
[Go2 机器狗](https://www.unitree.com/cn/go2)
[AlienGo 机器狗](https://www.yuque.com/ironfatty/nly1un/dqcz3u)
[通用人形 H1](https://www.unitree.com/cn/h1)
[通用人形 G1](https://www.unitree.com/cn/g1) | 许多产出使用宇树的机器人作为硬件基础 |
| [方舟无限 ARX](https://www.arx-x.com/?product/) | [X5 机械臂](https://www.arx-x.com/?product/21.html)
[X7 双臂平台](https://www.arx-x.com/?product/23.html)
[R5 机械臂](https://www.arx-x.com/?product/22.html) | 适合复现很多经典工作,例如 [aloha](https://mobile-aloha.github.io/cn.html)
[RoboTwin 松灵底盘 + 方舟臂](https://github.com/TianxingChen/RoboTwi) |
| [波士顿动力 Boston Dynamics](https://bostondynamics.com/) | [Spot 机器狗](https://bostondynamics.com/products/spot/)
[Atlas 通用人形](https://bostondynamics.com/atlas/) | 具身智能本体制造商,从液压驱动转向电机驱动 |
| [灵心巧手](https://www.linkerbot.cn/index) | [Linker Hand L30(健绳驱动)](https://www.linkerbot.cn/product?page=L30)
[Linker Hand L20(连杆驱动)](https://www.linkerbot.cn/product?page=L20) | 主攻各类灵巧手 |
| [灵巧智能 DexRobot](https://www.dex-robot.com/) | [Dexhand 021 灵巧手](https://www.dex-robot.com/productionDexhand) | 19 自由度量产灵巧手 |
| [银河通用](https://www.galbot.com/about) | [GALBOT G1](https://www.galbot.com/g1) | 专注于具身智能多模态大模型通用机器人研发 |
| [星海图 Galaxea](https://galaxea.ai/) | [A1 六轴机械臂](https://galaxea.ai/A1)
[R1-Pro 仿人形机器人](https://galaxea.ai/R1-Pro) | 软硬件产品均自主研发,专注于打造“一脑多型” |
| [World Labs](https://www.worldlabs.ai/) | | 专注于空间智能,致力于打造大型世界模型(LWM),以感知、生成并与 3D 世界进行交互。
[相关介绍](https://mp.weixin.qq.com/mp/wappoc_appmsgcaptcha?poc_token=HEH5X2ejkAoWy1ZXj8DlZO_Y2Q7PsYX-3ID-rfr5&target_url=https%3A%2F%2Fmp.weixin.qq.com%2Fs%2Fi58_yTFtt904haKezJgr1Q) |
| [星动纪元](https://www.robotera.com) | [Star1 人形](https://www.robotera.com/goods/1.html)
[XHAND1 灵巧手](https://www.robotera.com/goods/2.html) | |
| [加速进化](https://boosterobotics.com/zh/) | [Booster T1 人形](https://boosterobotics.com/zh/store/) | |
| [人形机器人(上海)有限公司](https://www.openloong.net/) | [青龙机器人](https://www.openloong.org.cn/cn) | 全尺寸通用人形机器人,提供开源硬件设计图纸、软件框架代码、算法包和全链仿真工具。 |
| [云深处科技](https://www.deeprobotics.cn/) | [绝影 X30 四足机器人](https://www.deeprobotics.cn/robot/index/product3.html)
[Dr.01 人形机器人](https://www.deeprobotics.cn/robot/index/humanoid.html) | |
| [松应科技](http://www.orca3d.cn/) | | 具身智能仿真平台供应商 |
| [光轮智能](https://lightwheel.net/) | | 具身智能数据平台 |
| [智元机器人](https://www.zhiyuan-robot.com/about/167.html) | [远征 A2 人形机器人](https://www.zhiyuan-robot.com/products/A2)
[远征 A2-W 轮式人形](https://www.zhiyuan-robot.com/products/A2_W)
[灵犀 X1 人形机器人](https://www.zhiyuan-robot.com/products/X1)
[精灵 G1 轮式人形](https://www.zhiyuan-robot.com/products/A2_D) | |
| [Nvidia](https://www.nvidia.cn/industries/robotics/) | | 具身智能基建公司 |
| [求之科技](https://airbots.online/) | [TOK2 移动主从臂平台](https://airbots.online/zh/tok)
[MMK2 移动升降双臂平台](https://airbots.online/zh/mmk2)
Play 六轴机械臂 | |
| [穹彻智能](https://www.noematrix.ai/) | | |
| [优必选](https://www.ubtrobot.com/cn/about/companyProfile) | | |
| [具身风暴](https://www.robotstorm.tech) | | 落地具身智能通用按摩机器人 |
| [众擎机器人](https://engineai.com.cn/) | [SE 01](https://engineai.com.cn/product_one)
[PM 01](https://engineai.com.cn/product_fore) | |
| [魔法原子](https://www.magiclab.top/) | [MagicBot](https://www.magiclab.top/human)
[MagicDog](https://www.magiclab.top/dog) | |
| [帕西尼](https://www.paxini.com/) | [PX-6AX GEN2 触觉传感器](https://www.paxini.com/ax/gen2)
[DexH13 GEN2 灵巧手](https://www.paxini.com/dex/gen2)
[TORA-ONE 人形机器人](https://www.paxini.com/robot) | |
================================================
FILE: topics/infrastructure.md
================================================
Embodied-AI-Guide
软件基础设施篇
> 这一章关注的不是“具体某个模型”,而是**支撑具身智能研究与系统落地的软件基础设施(Infrastructure)**。
> 仿真器决定你能构建怎样的世界,基准集决定你如何比较方法优劣,数据集决定模型最终学到什么样的行为分布。它们共同构成了具身智能中**最容易被忽视、但最影响上限与复现性的部分**。
软件部分可以理解为三层:
**Simulators(仿真环境)** 决定你能“跑什么物理世界”;**Benchmarks(评测基准)** 决定你用什么任务衡量方法优劣;**Datasets(数据集)** 决定你能训练出怎样的策略分布。建议优先跑通“一个仿真器 + 一个基准 + 一个数据集”的最小闭环,再逐步扩展到多平台与多模态。
## (1) Simulators - 仿真器
常见仿真器 wiki:[link](https://simulately.wiki/)
| 仿真器 | 典型生态 / 对应基准与工具链 |
|---|---|
| IsaacGym | legged-gym:[link](https://github.com/leggedrobotics/legged_gym)
parkour(含蒸馏与真机部署):[link](https://github.com/ZiwenZhuang/parkour)
extreme-parkour:[link](https://github.com/chengxuxin/extreme-parkour) |
| IsaacSim | BEHAVIOR-1K:[link](https://behavior.stanford.edu/behavior-1k) + OmniGibson(工具链):[link](https://behavior.stanford.edu/omnigibson/)
ARNOLD:[link](https://arnold-benchmark.github.io/)
GarmentLab:[link](https://garmentlab.github.io/) / DexGarmentLab:[link](https://wayrise.github.io/DexGarmentLab/) |
| MuJoCo | robosuite:[link](https://robosuite.ai/docs/overview.html) + robomimic(工具链):[link](https://robomimic.github.io/)
LIBERO:[link](https://libero-project.github.io/main.html)
MetaWorld:[link](https://meta-world.github.io/)
Gymnasium-Robotics:[link](https://robotics.farama.org/)
RoboCasa:[link](https://github.com/robocasa/robocasa?tab=readme-ov-file)
RoboHive:[link](https://github.com/vikashplus/robohive) |
| SAPIEN | ManiSkill:[link](https://maniskill.readthedocs.io/en/latest/index.html)
RoboTwin:[link](https://github.com/TianxingChen/RoboTwin) |
| CoppeliaSim | RLBench:[link](https://github.com/stepjam/RLBench)
PerAct2:[link](https://bimanual.github.io/)
COLOSSEUM:[link](https://robot-colosseum.github.io/) |
| PyBullet | CALVIN:[link](https://github.com/mees/calvin?tab=readme-ov-file)
Ravens:[link](https://github.com/google-research/ravens)
VimaBench:[link](https://github.com/vimalabs/VimaBench) |
| Genesis | 入口:[link](https://genesis-embodied-ai.github.io/) |
| SOFA | 框架:[link](https://github.com/sofa-framework/sofa/)
常用于软体机器人仿真 |
| GenieSim | 框架:[link](https://github.com/AgibotTech/genie_sim)
评测与文档:[link](http://agibot-world.com/sim-evaluation/docs) |
| Gazebo | 平台:[link](https://gazebosim.org)
Open Robotics 维护:[link](https://openrobotics.org/)
与 ROS / ROS 2 深度集成,适合移动机器人、仓储物流等场景 |
教程:Isaac 101(Blog):[link](https://axi404.top/tags/isaac%20101)
---
## (2) Benchmarks - 基准集
基准集通常定义了:**任务集合 + 评测协议 +(可选)参考实现**。它们的价值是让不同方法在同一套任务与指标上可复现对比。下面列的是你当前条目中最常见、且各自定位清晰的基准。
| 基准 | 链接 | 一句话定位 |
|---|---|---|
| RoboTwin 2.0 | [link](https://github.com/robotwin-Platform/RoboTwin) | 程序化生成双臂任务数据与 50 个双臂评测任务(偏“双臂+规模化生成”) |
| SimplerENV | [link](https://github.com/simpler-env/SimplerEnv) | 轻量化、可快速对比策略在操作任务上的表现 |
| LIBERO | [link](https://github.com/Lifelong-Robot-Learning/LIBERO)
[link](https://libero-project.github.io/intro.html) | 程序化生成管道 + 视觉运动策略架构与终身学习设置(偏“终身/顺序学习”) |
| CALVIN | [link](https://github.com/mees/calvin)
[link](http://calvin.cs.uni-freiburg.de/) | 语言条件 + 多模态输入 + 长视野操纵(偏“长程任务与规划”) |
| Meta-World | [link](https://meta-world.github.io/) | 50 操作任务,经典多任务/元强化学习基准(偏“多任务泛化”) |
| Embodied Agent Interface | [link](https://embodied-agent-interface.github.io/) | 评测 LLM 在具身决策链路(理解/分解/序列化),不强调低层执行 |
| RoboGen | [link](https://github.com/Genesis-Embodied-AI/RoboGen)
[link](https://robogen-ai.github.io/) | 生成任务/场景/带标注数据(偏“生成数据而非直接生成 policy”) |
---
## (3) Datasets - 数据集
数据集决定了策略的“经验分布”。阅读数据集时建议关注四件事:
**(1) 真实 vs 仿真**、**(2) 机器人同构 vs 异构**、**(3) 模态(RGB/RGB-D/语言/触觉/声音等)**、**(4) 是否附带训练代码与硬件搭建/采集流程**。下面把你的条目统一成一个紧凑表,避免过长的散点描述。
| 数据集 | 链接 | 关键特点(紧凑版) |
|---|---|---|
| Open X-Embodiment(RT-X) | [link](https://robotics-transformer-x.github.io/) | 22 种机器人平台、百万级真实轨迹,覆盖大量技能与任务(大规模、跨本体) |
| AgiBot World Datasets(智元) | [link](https://agibot-world.com/) | 百万级轨迹、同构机器人采集、多级质检与人工在环流程(工业化采集流程) |
| RoboMIND | [link](https://x-humanoid-robomind.github.io/) | 10.7 万真实演示、96 类物体、四种协作臂、任务按类别组织(真实多任务) |
| ARIO(All Robots in One) | [link](https://imaei.github.io/project_pages/ario/) | 2D/3D/文本/触觉/声音五模态;操作+导航;仿真+真实;统一格式且规模大 |
| MimicGen | [link](https://github.com/NVlabs/mimicgen)
[link](https://mimicgen.github.io/) | 基于 robosuite+MuJoCo 的数据生成框架;少量真人演示扩增为大量仿真数据 |
| RoboCasa | [link](https://github.com/robocasa/robocasa)
[link](https://robocasa.ai/) | MuJoCo 厨房高保真平台;多环境多物体;原子任务+组合任务(偏家居厨房) |
| DexMimicGen | [link](https://github.com/NVlabs/dexmimicgen/)
[link](https://dexmimicgen.github.io/) | 面向双臂桌面操作;增强版 real2sim2real 数据生成;少量演示生成大量轨迹 |
| FUSE Dataset | [link](https://fuse-model.github.io/) | 远程操控轨迹;语言指令 + 复杂遮挡;多任务设置(多传感器融合研究友好) |
| BiPlay Dataset | [link](https://dit-policy.github.io/) | 双臂轨迹;随机物体与背景;长视频切片成带语言描述的剪辑(泛化导向) |
| DROID | [link](https://droid-dataset.github.io/) | 7.6 万轨迹、350 小时、564 场景、86 任务;附硬件与训练代码(真实大规模) |
| BridgeData V2 | [link](https://rail-berkeley.github.io/bridgedata/) | 6 万轨迹;多环境多技能;目标图像/语言指令;包含远程操控与脚本执行 |
| Ego4D Sounds | [link](https://ego4dsounds.github.io/) | 第一人称视频 + 环境声音;强调动作与声音对齐(声音模态很有价值) |
| RH20T | [link](https://rh20t.github.io/) | 人机交互数据;含人脸与语音等敏感信息;体量大且提供缩减版(注意隐私与合规) |
| 白虎数据集 | [link](https://www.openloong.org.cn/cn/dataset) | 异构机器人;多场景多任务;面向跨平台评估与训练(本体覆盖面广) |